2009-02-13 6 views
1

В настоящее время я пытаюсь написать сайт для тестирования/обучения, который будет обернут вокруг IMDB datasets that are dumped.Организация ночных IMDB дампов в структурированные данные

У меня возникли проблемы с определением наилучшего способа извлечения данных в формат, который проще в управлении. Мне нужно будет извлекать данные из нескольких файлов:

  • movies.list = списка фильмов всех фильмов и года производства
  • MPAA-оценка-reasons.list = рейтинги MPAA
  • обкатка times.list = Время работы

Данные в этих таблицах связаны уникальным именем, которое присваивается каждой строке. По сути, мне нужно будет объединить строки каждого из этих текстовых файлов вместе, используя уникальное имя. После этого мне нужно будет проанализировать данные, которые мне нужны, из фактического уникального имени, так как название фильма явно не указано. Уникальное имя также указывает, является ли запись видеоиграми или телешоу, на которые я не буду собирать данные.

Вытягивание данных из этих уникальных определителей имен, скорее всего, будет кошмаром Regex, но я больше обеспокоен тем, что лучший способ для фактической группировки текстовых файлов в управляемый формат где-нибудь ... Должен ли я ...

  1. Вытяните данные в промежуточные таблицы на сервере SQL, а затем напишите отдельную часть в моем приложении, чтобы присоединиться к таблицам и собрать все вместе?
  2. Загрузите строки из текстовых файлов в таблицу данных .NET и выполните мою обработку таким образом?
    1. При этом я собираюсь вызвать кошмар памяти для коробки, в которой работает это приложение?
  3. Другая альтернатива?

На боковой ноте файл movie.list содержит более 1 миллиона строк данных.

Заранее за вашу помощь.

Крис

ответ

1

Подмостей таблицы на сервере БД, вычистить данные в финальные столы.

Если это означает возврат обратно в клиентское приложение для обработки, пусть будет так.

Практически сервер БД обрабатывает количество данных, но SQL Server может оказаться не лучшим для вашей обработки.

Смежные вопросы