у меня есть два Numpy массивов одинаковой длины, которые содержат двоичных значенияБыстрого вычисление расстояния Хемминг между двоичными Numpy массивами
import numpy as np
a=np.array([1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0])
b=np.array([1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1])
Я хочу, чтобы вычислить расстояние Хэмминга между ними как можно быстрее, так как у меня есть миллионы таких вычисления расстояния.
Простой, но медленный вариант это (взято из википедии):
%timeit sum(ch1 != ch2 for ch1, ch2 in zip(a, b))
10000 loops, best of 3: 79 us per loop
Я придумал более быстрые варианты, вдохновленные ответы на некоторые вопросы здесь, на переполнение стека.
%timeit np.sum(np.bitwise_xor(a,b))
100000 loops, best of 3: 6.94 us per loop
%timeit len(np.bitwise_xor(a,b).nonzero()[0])
100000 loops, best of 3: 2.43 us per loop
Мне интересно, есть ли еще более быстрые способы вычислить это, возможно, используя cython?
Являются ли длины массивов примеров 'a' и' b' такими же, как длины ваших реальных данных? –
Вы вычисляете все попарные расстояния в массиве массивов или между двумя массивами массивов? Возможно, вы сможете использовать ['scipy.spatial.distance.cdist'] (http://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.spatial.distance.cdist.html) или ['scipy.spatial.distance.pdist'] (http://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.spatial.distance.pdist.html) – user2034412
@WarrenWeckesser они одного порядка, да. Они будут находиться в диапазоне от 20 до 100 в зависимости от некоторых параметров. – benbo