Я системный администратор для компании, которая поддерживает CRM CMS (Salesforce).«Хороший» инструмент сравнения записей базы данных?
Мне не нравятся встроенные функции, поэтому я обычно управляю данными через файлы CSV/XLS для загрузки и загрузки, потому что я могу писать лучшие запросы и тому подобное. Одна из моих задач - загрузка контактов и учетных записей. Из-за отсутствия уникальных идентификаторов и орфографических ошибок я встречаю дубликаты в загруженных записях.
- При загрузке контактов, я стараюсь соответствовать по электронной почте, номер телефона и/или фамилия/Firstname
- С компаниями я обычно ограничиваются только имя учетной записи, с многочисленными возможными сокращениями и опечатками
Я ищу лучший метод для проверки дубликатов со следующими ограничениями:
Предоставлено список имен, электронных писем или телефонных номеров (все хранится в виде текстовых полей) , выполните проверку сравнения между двумя таблицами, ища наилучшее соответствие из второй таблицы. Предпочтительно между несколькими полями, но даже если это всего лишь одно, это значительно облегчит мои усилия.
Размер набора данных составляет около 17 000 записей на самом длинном столе. Значения обычно вводятся примерно по 50 за раз. Мои ограничения - это аппаратное обеспечение, которое у меня есть, и отсутствие бюджетного усмотрения. Моя способность программирования довольно простая, но я могу узнать и иметь Eclipse & Visual Studio в системе.
Есть ли у кого-нибудь предложение, как я могу решить эту проблему программно или с помощью стороннего инструмента?
Это Фрэнк Чанг (ячейка 617-909-2731 email [email protected]). Сейчас я работаю на Kendall Square Cambridge, штат Массачусетс, в качестве консультационного инженера по программному обеспечению для двух компаний. Спасибо, Фрэнк (11 декабря 2013 г.) – Frank