2016-09-01 2 views
0

У меня есть большой список банков и уже вытащил дубликаты. У меня теперь есть проблема, что у меня есть один и тот же банк, но с разными именами для них (например, некоторые говорят «Wells Fargo Bank», а другой - «Wells Fargo Bank, NA»), поэтому первый раунд вывоза дубликатов не почини это. Как просто сгруппировать их вместе. Попытка потоковой линии, зная основную сумму, которую я обязан каждому из кредиторов.Excel - вытащите данные дублирования на основе первых двух слов

+0

Я использовал формулу «= INDEX ($ A $ 2: $ A $ 3000, MATCH (0, INDEX (COUNTIF ($ B $ 1: B1, $ A $ 2: $ A $ 3000), 0,0), 0)) «вытащить первый набор дубликатов – Excel

+2

Вам нужно показать несколько примеров и определить некоторые правила, которые определяют, что такое« дубликат ». «Нечеткое соответствие» - не простая задача и требует немного большего объяснения с вашей стороны. –

+0

Спасибо за ответ @TimWilliams, некоторые примеры того, что я считаю дубликатом, это то, что некоторые из них представлены «BOKF, NA dba Bank of Oklahoma», а другие - «BOKF, NA dba Bank of Texas». Я бы спустил их до BOKF. Другой пример - некоторые из них вводятся как «PNC Bank, N.A», а другие - «PNC Bank, Национальная ассоциация», и я бы хотел, чтобы они были классифицированы как «PNC Bank». Что общего с моей проблемой, так это то, что первые левые буквы того, что я пытаюсь совместить, являются общими. – Excel

ответ

0

на основе первых двух слов

Следующая формула будет извлечь первую пару слов (т.е. до второго места слева) из строки A1:

=LEFT(A1,FIND(" ",A1,FIND(" ",A1)+1)) 

и может быть скопирован на заказ.

Это позиция для первого пространства, а затем используется для начала поиска следующего (второго) пространства. Обнаружив, что позиция LEFT принимает только символы до этой позиции.

-1

Я думаю Data>Text to Columns будет легче https://www.youtube.com/watch?v=u1d1uk0wMts

Если вы хотите сгруппировать по первым 4-х символов, выберите Fixed Width. В противном случае вы можете выбрать Delimited и проверить запятую. Просто скопируйте данные в новый столбец.

Теперь вы можете группировать данные в сводной таблице или выбирать столбцы и Data>Remove Duplicates и проверять только столбец, где находятся значения ключа.

+0

Из 150 лучших банков США около 50 не отличаются друг от друга только их первыми четырьмя персонажами. Только около десятка из 150 включают запятые даже в их «длинной форме». т. е. ни один подход не кажется почти таким же надежным, как запрошенный OP (т.е. * первая пара слов *). – pnuts

Смежные вопросы