Быстрое преобразование Фурье

Рассмотрим такую распространённую операцию как умножение двух целых чисел. Квадратичный алгоритм — умножения в столбик — все знают со школы. Долгое время предполагалось, что ничего быстрее придумать нельзя.

Первым эту гипотезу опроверг Анатолий Карацуба. Его алгоритм сводит умножение двух

n

-значных чисел к трём умножениям

\frac{n}{2}

-значных чисел, что даёт оценку времени работы

Чтобы перейти к алгоритму с лучшей оценкой, нам нужно сначала установить несколько фактов о многочленах.

Умножение многочленов

Обратим внимание на то, что любое число можно представить многочленом:

\begin{aligned} A (x) & = a_{0} + a_{1} \cdot x + a_{2} \cdot x^{2} + \dots + a_{n} \cdot x^{n} \\ = a_{0} + a_{1} \cdot 2 + a_{2} \cdot 2^{2} + \dots + a_{n} \cdot 2^{n} \end{aligned}

Основание x при этом может быть выбрано произвольно.

Чтобы перемножить два числа, мы можем перемножить соответствующие им многочлены, а затем произвести каррирование: пройтись от нижних разрядов получившегося многочлена и «сдвинуть» переполнившиеся разряды:

const int base = 10;

vector<int> normalize(vector<int> a) {
    int carry = 0;
    for (int &x : a) {
        x += carry;
        carry = x / base;
        x %= base;
    }
    while (carry > 0) {
        a.push_back(carry % base);
        carry /= base;
    }
    return a;
}

vector<int> multiply(vector<int> a, vector<int> b) {
    return normalize(poly_multiply(a, b));
}

Прямая формула для произведения многочленов имеет вид

(\sum_{i = 0}^{n} a_{i} x^{i}) \cdot (\sum_{j = 0}^{m} b_{j} x^{j}) = \sum_{k = 0}^{n + m} x^{k} \sum_{i + j = k} a_{i} b_{j}

Её подсчёт требует

O (n^{2})

операций, что нас не устраивает. Подойдём к этой задаче с другой стороны.

Интерполяция

Теорема. Пусть есть набор различных точек

x_{0}, x_{1}, \dots, x_{n}

. Многочлен степени

n

однозначно задаётся своими значениями в этих точках. (Коэффициентов у этого многочлена столько же, сколько и точек — прим. К. О.)

Доказательство будет конструктивным — можно явным образом задать многочлен, который принимает заданные значения

y_{0}, y_{1}, \dots, y_{n}

в этих точках:

y (x) = \sum_{i = 0}^{n} y_{i} \prod_{j \neq i} \frac{x - x_{j}}{x_{i} - x_{j}}

Корректность. Проверим, что в точке

x_{i}

значение действительно будет равно

y

Уникальность. Предположим, есть два подходящих многочлена степени

n

—

A (x)

B (x)

. Рассмотрим их разность. В точках

x_{i}

значение получившегося многочлена

A (x) - B (x)

будет равняться нулю. Если так, то точки

x_{i}

должны являться его корнями, и тогда разность можно записать так:

для какого-то числа

α

. Тут мы получаем противоречие: если раскрыть это произведение, то получится многочлен степени

n + 1

, который нельзя получить разностью двух многочленов степени

n

Этот многочлен называется интерполяционным многочленом Лагранжа, а сама задача проведения многочлена через точки — интерполяцией.

Примечание. На практике интерполяцию решают методом Гаусса: её можно свести к решению линейного уравнения

a X = y

, где

X

это матрица следующего вида:

(\begin{matrix} 1 & x_{0} & x_{0}^{2} & \dots & x_{0}^{n} \\ 1 & x_{1} & x_{1}^{2} & \dots & x_{1}^{n} \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & x_{n} & x_{n}^{2} & \dots & x_{n}^{n} \end{matrix})

Важный факт: многочлен можно однозначно задать не только своими коэффициентами, но также корнями и значениями хотя бы в

(n + 1)

-ой точке.

Умножение через интерполяцию

Что происходит со значениями многочлена-произведения

A (x) B (x)

в конкретной точке

x_{i}

? Оно просто становится равным

A (x_{i}) B (x_{i})

Основная идея алгоритма: если мы знаем значения в каких-то различных

n + m

точках для обоих многочленов

A

B

, то, попарно перемножив их, мы за

O (n + m)

операций можем получить значения в тех же точках для многочлена

A (x) B (x)

— а с их помощью можно интерполяцией получить исходный многочлен и решить задачу.

vector<int> poly_multiply(vector<int> a, vector<int> b) {
    vector<int> A = evaluate(a);
    vector<int> B = evaluate(b);
    for (int i = 0; i < A.size(); i++)
        A[i] *= B[i];
    return interpolate(A);
}

Если притвориться, что evaluate и interpolate работают за линейное время, то умножение тоже будет работать за линейное время.

К сожалению, непосредственное вычисление значений требует

O (n^{2})

операций, а интерполяция — как методом Гаусса, так и через символьное вычисление многочлена Лагранжа — и того больше,

O (n^{3})

Но что, если бы мы могли вычислять значения в точках и делать интерполяцию быстрее?

Комплексные числа

Определение. Комплексные числа — это числа вида

a + b i

, где

a

b

это обычные вещественные числа, а

i

это так называемая мнимая единица: это число, для которого выполняется равенство

i^{2} = - 1

Комплексные числа ввели в алгебре, чтобы работать с корнями из отрицательных чисел:

i

в каком-то смысле равно

\sqrt{- 1}

. Так же, как и отрицательные числа, они как бы «не существуют» в реальном мире, а только в сознании математиков.

С комплексными числами можно работать почти так же, как с действительными. Они даже удобнее: все квадратные корни всегда извлекаются, все корни многочленов всегда находятся.

Комплексная плоскость

Комплексные числа удобно изображать на плоскости в виде вектора

(a, b)

и считать через них всякую геометрию.

Модулем комплексного числа называется действительное число

r = \sqrt{a^{2} + b^{2}}

. Геометрически, это длина вектора

(a, b)

Аргументом комплексного числа называется действительное число

ϕ \in (- π, π]

, для которого выполнено

\tan ϕ = \frac{b}{a}

. Геометрически, это значение угла между

(a, 0)

(a, b)

. Для нуля — вектора

(0, 0)

— аргумент не определён.

Таким образом комплексное число можно представить в полярных координатах:

Подобное представление удобно по следующей причине: чтобы перемножить два комплексных числа, нужно перемножить их модули и сложить аргументы.

Формула эйлера

Определим число Эйлера

e

как число со следующим свойством:

Просто введём такую нотацию для выражения

\cos ϕ + i \sin ϕ

. Не надо думать, почему это так.

Геометрически, все такие точки живут на единичном круге:

Такая нотация удобна, потому что можно обращаться с

e^{i ϕ}

как с обычной экспонентой. Пусть мы, например, хотим перемножить два числа на единичном круге с аргументами

a

b

. Тогда это можно записать так:

Упражнение. Проверьте это: раскройте скобки и проделайте немного алгебры.

Корни из единицы

У комплексных чисел есть много других замечательных свойств, но нам для алгоритма на самом деле потребуется только следующее:

Утверждение. Для любого натурального

n

есть ровно

n

комплексных «корней из единицы», то есть чисел

w_{k}

, для которых выполнено:

На комплексной плоскости эти числа располагаются на единичном круге на равном расстоянии друг от друга:

Первый корень

w_{1}

(точнее второй — единицу считаем нулевым корнем) называют образующим корнем степени

n

из единицы. Возведение его в нулевую, первую, вторую и так далее степени порождает последовательность нужных корней единицы, при этом на

n

-ном элементе последовательность зацикливается:

Упражнение. Докажите, что других корней быть не может.

Дискретное преобразование Фурье

Дискретным преобразованием Фурье называется вычисление значений многочлена в комплексных корнях из единицы:

y_{j} = \sum_{k = 0}^{n - 1} x_{n} e^{i τ \frac{k j}{n}} = \sum_{k = 0}^{n - 1} x_{n} w_{1}^{k j}

Обратным дискретным преобразованием Фурье называется, как можно догадаться, обратная операция — интерполяция коэффициентов

x_{i}

по значениям

X_{i}

x_{j} = \frac{1}{n} \sum_{k = 0}^{n - 1} y_{n} e^{- i τ \frac{k j}{n}} = \frac{1}{n} \sum_{k = 0}^{n - 1} y_{n} w_{n - 1}^{k j}

Почему эта формула верна? При вычислении ПФ мы практически применяем матрицу к вектору:

(\begin{matrix} w^{0} & w^{0} & w^{0} & w^{0} & \dots & w^{0} \\ w^{0} & w^{1} & w^{2} & w^{3} & \dots & w^{- 1} \\ w^{0} & w^{2} & w^{4} & w^{6} & \dots & w^{- 2} \\ w^{0} & w^{3} & w^{6} & w^{9} & \dots & w^{- 3} \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ w^{0} & w^{- 1} & w^{- 2} & w^{- 3} & \dots & w^{1} \end{matrix}) (\begin{matrix} a_{0} \\ a_{1} \\ a_{2} \\ a_{3} \\ ⋮ \\ a_{n - 1} \end{matrix}) = (\begin{matrix} y_{0} \\ y_{1} \\ y_{2} \\ y_{3} \\ ⋮ \\ y_{n - 1} \end{matrix})

То есть преобразование Фурье — это просто линейная операция над вектором:

W a = y

. Значит, обратное преобразование можно записать так:

a = W^{- 1} y

Как будет выглядеть эта

W^{- 1}

? Автор не будет пытаться изображать логичный способ рассуждений о её получении и сразу её приведёт:

W^{- 1} = \frac{1}{n} (\begin{matrix} w^{0} & w^{0} & w^{0} & w^{0} & \dots & w^{0} \\ w^{0} & w^{- 1} & w^{- 2} & w^{- 3} & \dots & w^{1} \\ w^{0} & w^{- 2} & w^{- 4} & w^{- 6} & \dots & w^{2} \\ w^{0} & w^{- 3} & w^{- 6} & w^{- 9} & \dots & w^{3} \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ w^{0} & w^{1} & w^{2} & w^{3} & \dots & w^{- 1} \end{matrix})

Проверим, что при перемножении

W

W^{- 1}

действительно получается единичная матрица:

Внимательный читатель заметит симметричность форм

W

W^{- 1}

, а также формул для прямого и обратного преобразования. На самом деле, эта симметрия нам сильно упростит жизнь: для обратного преобразования Фурье можно использовать тот же алгоритм, только вместо

w^{k}

использовать

w^{- k}

, а в конце результат поделить на

n

Зачем это надо?

Напомним, что мы изначально хотели перемножать многочлены следующим алгоритмом:

В общем случае быстро посчитать интерполяцию и даже просто посчитать значения в точках нельзя, но для корней единицы — можно. Если научиться быстро считать значения в корнях и интерполировать (прямое и обратное преобразование Фурье), но мы можно решить исходную задачу.

Соответствующий алгоритм называется быстрым преобразованием Фурье (англ. fast Fourier transform). Он использует парадигму «разделяй-и-властвуй» и работает за

O (n \log n)

Схема Кули-Тьюки

Обычно, алгоритмы «разделяй-и-властвуй» делят задачу на две половины: на первые

\frac{n}{2}

элементов и вторые

\frac{n}{2}

элементов. Здесь мы поступим по-другому: поделим все элементы на чётные и нечётные.

Представим многочлен в виде

P (x) = A (x^{2}) + x B (x^{2})

, где

A (x)

состоит из коэффициентов при чётных степенях

x

, а

B (x)

— из коэффициентов при нечётных.

Зная это, исходную формулу для значения многочлена в точке

w^{t}

можно записать так:

P (w^{t}) = A (w^{2 t}) + w^{t} B (w^{2 t}) = A (w^{2 (t mod k)}) + w^{t} B (w^{2 (t mod k)})

Ключевое замечание: корней вида

w^{2 t}

в два раза меньше, потому что

w^{n} = w^{0}

, и можно сказать, что.

У нас по сути в два раза меньше корней (но они так же равномерно распределены на единичной окружности) и в два раза меньше коэффициентов — мы только что успешно уменьшили нашу задачу в два раз.

Сам алгоритм заключается в следующем: рекурсивно посчитаем БПФ для многочленов

A

B

и объединим ответы с помощью формулы выше. При этом в рекурсии нам нужно считать значения на корнях степени не

n

, а

k = \frac{n}{2}

, то есть на всех «чётных» корнях степени

n

(вида

w^{2 t}

Заметим, что если

w

это образующий корень степени

n = 2 k

из единицы, то

w^{2}

будет образующим корнем степени

k

, то есть в рекурсию мы можем просто передать другое значение образующего корня.

Таким образом, мы свели преобразование размера

n

к двум преобразованиям размера

\frac{n}{2}

. Следовательно, общее время вычислений составит

Заметим, что предположение о делимости

n

на

2

имело существенную роль. Значит,

n

должно быть чётным на каждом уровне, кроме последнего, из чего следует, что

n

должно быть степенью двойки.

Реализация

Приведём код, вычисляющий БПФ по схеме Кули-Тьюки:

typedef complex<double> ftype;
const double pi = acos(-1);

template<typename T>
vector<ftype> fft(vector<T> p, ftype w) {
    int n = p.size();
    if(n == 1)else { {
        return {p[0]};
    else {
        vector<T> AB[2];
        for(int i = 0; i < n; i++)
            AB[i % 2].push_back(p[i]);
        auto A = fft(AB[0], w * w);
        auto B = fft(AB[1], w * w);
        vector<ftype> res(n);
        ftype wt = 1;
        int k = n / 2;
        for(int i = 0; i < n; i++) {
            res[i] = A[i % k] + wt * B[i % k];
            wt *= w;
        }
        return res;
    }
}

vector<ftype> evaluate(vector<int> p) {
    while(__builtin_popcount(p.size()) != 1)
        p.push_back(0);
    return fft(p, polar(1., 2 * pi / p.size()));
}

Как обсуждалось выше, обратное преобразование Фурье удобно выразить через прямое:

vector<int> interpolate(vector<ftype> p) {
    int n = p.size();
    auto inv = fft(p, polar(1., -2 * pi / n));
    vector<int> res(n);
    for(int i = 0; i < n; i++)
        res[i] = round(real(inv[i]) / n);
    return res;
}

Теперь мы умеем перемножать два многочлена за

O (n \log n)

vector<int> poly_multiply(vector<int> a, vector<int> b) {
    vector<int> A = fft(a);
    vector<int> B = fft(b);
    for (int i = 0; i < A.size(); i++)
        A[i] *= B[i];
    return interpolate(A);
}

Примечание. Приведённый выше код, являясь корректным и имея асимптотику

O (n \log n)

, едва ли пригоден для использования на реальных контестах. Он имеет большую константу и далеко не так численно устойчивый, чем оптимальные варианты написания быстрого преобразования Фурье. Мы его приводим, потому что он относительно простой.

Читателю рекомендуется самостоятельно задуматься о том, как можно улучшить время работы и точность вычислений. Из наиболее важных недостатков:

Здесь приведена одна из условно пригодных реализаций.

Но главная проблема в численной стабильности — мы нарушили первое правило действительных чисел. Однако, от неё можно избавиться.

Number-theoretic transform

Нам от комплексных чисел на самом деле нужно было только одно свойство: что у единицы есть

n

«корней». На самом деле, помимо комплексных чисел, есть и другие алгебраические объекты, обладающие таким свойством — например, элементы кольца вычетов по модулю.

Нам нужно просто найти такую пару

m

g

(играющее роль

w_{n}^{1}

), такую что

g

является образующим элементом, то есть

g^{n} \equiv 1 (\mod m)

и при для всех остальных

k < n

все степени

g^{k}

различны по модулю

m

. В качестве

m

на практике часто специально берут «удобные» модули, например

Это число простое, и при этом является ровно на единицу больше числа, делящегося на большую степень двойки. При

n = 2^{2} 3

подходящим

g

является число

31

. Заметим, что, как и для комплексных чисел, если для некоторого

n = 2^{k}

первообразный корень -

g

, то для

n = 2^{k - 1}

первообразным корнем будет

g^{2} (m o d m)

. Таким образом, для

m = 998244353

n = 2^{k}

первообразный корень будет равен

g = 31 \cdot 2^{23 - k} (m o d m)

const int MOD = 998244353, W = 805775211, IW = 46809892;
const int MAXN = (1 << 19), INV2 = 499122177;

// W - первообразный корень MAXN-ной степени из 1, IW - обратное по модулю MOD к W
// Первообразный корень (1 << 23)-й степени из 1 по модулю MOD равен 31; тогда первообразный корень (1 << X)-й степени для X от 1 до 23 равен (31 * (1 << (23 - X))) % MOD
// INV2 - обратное к двум по модулю MOD
// Данная реализация FFT перемножает два целых числа длиной до 250000 цифр за ~0.13 секунд без проблем с точностью и занимает всего 30 строк кода

int pws[MAXN + 1], ipws[MAXN + 1];

void init() {
    pws[MAXN] = W; ipws[MAXN] = IW;
    for (int i = MAXN / 2; i >= 1; i /= 2) {
        pws[i] = (pws[i * 2] * 1ll * pws[i * 2]) % MOD;
        ipws[i] = (ipws[i * 2] * 1ll * ipws[i * 2]) % MOD;
    }
}

void fft(vector<int> &a, vector<int> &ans, int l, int cl, int step, int n, bool inv) {
    if (n == 1) { ans[l] = a[cl]; return; }
    fft(a, ans, l, cl, step * 2, n / 2, inv);
    fft(a, ans, l + n / 2, cl + step, step * 2, n / 2, inv);
    int cw = 1, gw = (inv ? ipws[n] : pws[n]);
    for (int i = l; i < l + n / 2; i++) {
        int u = ans[i], v = (cw * 1ll * ans[i + n / 2]) % MOD;
        ans[i] = (u + v) % MOD;
        ans[i + n / 2] = (u - v) % MOD;
        if (ans[i + n / 2] < 0) ans[i + n / 2] += MOD;
        if (inv) {
            ans[i] = (ans[i] * 1ll * INV2) % MOD;
            ans[i + n / 2] = (ans[i + n / 2] * 1ll * INV2) % MOD;
        }
        cw = (cw * 1ll * gw) % MOD;
    }
}

С недавнего времени некоторые проблемсеттеры начали использовать именно этот модулю вместо стандартного

10^{9} + 7

, чтобы намекнуть (или сбить с толку), что задача на FFT.

Применения

Сперва научимся для каждого циклического сдвига

i

второй строки считать количество совпадающих единиц

c_{i}

. Это можно сделать за

O (n^{2})

множеством разных способов, мы рассмотрим следующий: рассмотрим каждую единицу во втором числе, пусть она стоит на

j

-й позиции; для каждого

l

от

0

до

n - 1

, если

a_{l}

равно 1, то прибавим один к

c_{i - j}

(при этом

i - j

берётся по модулю

n

). Такой алгоритм верный, потому что по сути мы перебираем пары единиц, которые могут совпадать, и прибавляем +1 к количеству совпадающих единиц для соответствующего циклического сдвига. И тут мы можем заметить очень важную вещь: если перемножить числа, соответствующие

a

b

, в столбик и не переносить разряды при сложении, то мы получим как раз массив

c

(с одним нюансом: его длина может быть больше

n

, тогда нам нужно для всех

i \geq n

прибавить

c_{i}

c_{i - n}

)! А перемножать длинные числа мы уже научились: это легко сделать при помощи БПФ. Таким образом, мы научились искать число совпадающих единиц; заметим, что мы можем инвертировать биты в строках и применить эквивалентный алгоритм, получив в итоге количества совпадающих нулей. Сложим соответствующие элементы в двух массивах и найдём индекс максимального. Также очень часто в задачах на FFT требуется не явно перемножить два полинома, а посчитать свёртку двух векторов. Прямой свёрткой векторов

a

длины

n

b

длины

m

называется вектор

s

длины

n + m - 1

такой, что

s_{k} = Σ_{i = 0}^{k} a_{i} \cdot b_{k - i} (\forall k \in [0; n + m - 2])

(при этом считается, что несуществующие элементы равны нулю). Круговой (циклической) свёрткой векторов

a

b

длины

n

называется вектор

s

длины

n

такой, что

s_{k} = Σ_{i = 0}^{n - 1} a_{i} \cdot b_{k - i} (\forall k \in [0; n - 1])

(при этом

k - i

берётся по модулю

n

). Оказывается, что линейную свёртку можно считать через круговую: для этого дополним нулями оба вектора до одинаковой длины

n + m - 1

. Это очень легко доказать: если для некоторого

k

i \geq k + 1

, то либо

a_{i}

, либо

b_{k - i}

будут равны нулю. Если расписать выражение для прямого преобразования Фурье круговой свёртки и перенести множетили, то можно получить, что круговая свёртка равна вектору произведений многочленов с коэффициентами

a

b

в точках

0, 1, \dots n - 1

. Возможно, когда-нибудь я это распишу.