2013-09-06 3 views
1

Учитывая диапазон чисел, скажем из [80, 240], легко определить, какая часть этого диапазона находится внутри [100,105]: (105-100)/(240-80) = 5/160 = .03125. Легко.Есть ли стандартная метрика для отсортированного текста?

Итак, сколько слов в словаре Meriam Webster лежит между зонтиком и бархатом? Даже если мы предполагаем равномерное распределение текста по всему корпусу, существует ли стандартная метрика для текста?

+0

«сколько словаря Meriam Webster находится между зонтиком и бархатом» - количество леммма, которое вы можете подсчитать, и делить на общее число, чтобы нормализовать его. –

+0

Я пытаюсь определить, использовать ли индекс для доступа к базовым данным. Поэтому я не знаю, сколько слов в этом диапазоне, фактически не обращаясь к ним. Предполагая равномерное распределение слов, сколько я могу оценить, чтобы лежать между зонтиком и бархатом? Предположим, я знаю, что в общем словаре есть 1 000 000 слов (конечно, конечно). –

+0

Вы не можете знать из-за лексикографического заказа. Вам нужно будет извлечь все слова, отсортировать их и применить свою формулу к их показателям. –

ответ

1

Я не думаю, что для этого есть стандарт. Если у вас есть все записи Meriam Webster в массиве, вы можете использовать первую и последнюю позиции в качестве границ, поэтому у вас будет набор, идущий от 1 до n. Затем вы можете выбрать позиции «зонтик» и «бархат», назовите их x и y, и рассчитать свой диапазон как (y - x + 1)/(n).

Это работает, если вы видите слова как элементы упорядоченного набора, чтобы они вели себя как реальные числа. Вы в основном разделяете расстояние между двумя числами в наборе на расстояние между границами множества. Некоторые формы алгебры имеют дело с ними по-разному - при расчете Levenshtein distance между любыми двумя заданными словами, например, каждое слово рассматривается как вектор с таким количеством измерений, как у них есть символы.

Вы можете определить границы своего n-мерного пространства, используя самое большое слово в Meriam Webster (подсказка: это «pneumonoultramicroscopicsilicovolcanoconiosis», поэтому ваше пространство будет иметь 45 измерений). Однако при рассмотрении любой пары слов A-B третье слово C промежуточной длины может быть или не быть между ними, в зависимости от операций, участвующих в преобразовании от A до B.

Вы должны были бы проверить каждое слово с длиной между тем из A и B, чтобы проверить, являются ли они частью диапазона между A и B ... Так что это не вопрос простого исчисления, и я не» t знать, может ли это быть даже возможно с обычным компьютером в настоящее время. И это всего лишь вопрос о том, что Meriam имеет около полумиллиона записей.

+0

Я знаком с Левенштейном вместе с несколькими другими (Харо, Хэмминг и т. Д.). Мне интересно узнать о позиции слова в алфавитном порядке/отсортированном списке слов. Предположим, что более крупное тело равномерно распределено. –

+0

Ну, тогда вам нужно будет знать положения этих слов и количество слов/положений последнего слова. Поэтому вы можете использовать формулу, указанную в своем вопросе. – Renan

Смежные вопросы