Я не думаю, что для этого есть стандарт. Если у вас есть все записи Meriam Webster в массиве, вы можете использовать первую и последнюю позиции в качестве границ, поэтому у вас будет набор, идущий от 1 до n. Затем вы можете выбрать позиции «зонтик» и «бархат», назовите их x
и y
, и рассчитать свой диапазон как (y - x + 1)/(n)
.
Это работает, если вы видите слова как элементы упорядоченного набора, чтобы они вели себя как реальные числа. Вы в основном разделяете расстояние между двумя числами в наборе на расстояние между границами множества. Некоторые формы алгебры имеют дело с ними по-разному - при расчете Levenshtein distance между любыми двумя заданными словами, например, каждое слово рассматривается как вектор с таким количеством измерений, как у них есть символы.
Вы можете определить границы своего n-мерного пространства, используя самое большое слово в Meriam Webster (подсказка: это «pneumonoultramicroscopicsilicovolcanoconiosis», поэтому ваше пространство будет иметь 45 измерений). Однако при рассмотрении любой пары слов A-B
третье слово C
промежуточной длины может быть или не быть между ними, в зависимости от операций, участвующих в преобразовании от A
до B
.
Вы должны были бы проверить каждое слово с длиной между тем из A
и B
, чтобы проверить, являются ли они частью диапазона между A
и B
... Так что это не вопрос простого исчисления, и я не» t знать, может ли это быть даже возможно с обычным компьютером в настоящее время. И это всего лишь вопрос о том, что Meriam имеет около полумиллиона записей.
«сколько словаря Meriam Webster находится между зонтиком и бархатом» - количество леммма, которое вы можете подсчитать, и делить на общее число, чтобы нормализовать его. –
Я пытаюсь определить, использовать ли индекс для доступа к базовым данным. Поэтому я не знаю, сколько слов в этом диапазоне, фактически не обращаясь к ним. Предполагая равномерное распределение слов, сколько я могу оценить, чтобы лежать между зонтиком и бархатом? Предположим, я знаю, что в общем словаре есть 1 000 000 слов (конечно, конечно). –
Вы не можете знать из-за лексикографического заказа. Вам нужно будет извлечь все слова, отсортировать их и применить свою формулу к их показателям. –