Я работаю над этой новой задачей, где мой входной файл csv содержит от 200 до 300 миллионов записей. Мое требование состоит в том, чтобы сортировать входящие данные, выполнять поиск, получать ключевое значение и вставлять в целевую таблицу. Одно из предложений заключалось в том, чтобы написать java-плагин, который будет сортировать и хранить данные в нескольких файлах temp (скажем, миллион каждый) и извлекать оттуда. Я думал использовать шаг сортировки в пентахо и установить количество копий для начала. Но я не уверен, какой лучший подход. Может ли кто-нибудь предложить, как это сделать. Благодарю.Лучший способ сортировать 200-300 миллионов записей в Пентахо?
ответ
Я использовал PDI для сортировки этого множества строк. Шаг Sort
отлично работает, и это может быть неудобно. Я установил свой «Свободный порог памяти (в%)» до ~ 50. Этот шаг будет генерировать потоки временных файлов в вашем «Sort-directory»; если сбой работы (как правило, из-за нехватки памяти), вам придется вручную удалить временные файлы.
Если бы мне пришлось это сделать снова, я бы, вероятно, установил «Сжимать файлы TMP»? поскольку множественные сбои вывели меня из дискового пространства. Удачи!
Пользовательский вид на Java может дать вам лучшую производительность, но время разработки будет значительным. Если вы собираетесь сортировать это количество строк ежедневно/еженедельно, что бы это ни было, это, вероятно, стоит того. Если нет, просто придерживайтесь PDI Sort
.
- 1. Самый эффективный способ хранения 200 миллионов записей?
- 2. Самый быстрый способ обновить 120 миллионов записей
- 3. Лучший способ запасать 2xx миллионов точек
- 4. Лучший способ очистить несколько миллионов данных в SQL Server
- 5. Лучший способ поиска миллионов нечетких хэшей
- 6. Лучший способ удалить 'дубликаты записей'
- 7. лучший способ для архивирования записей
- 8. Лучший способ получить количество записей
- 9. Лучший способ хранения миллионов записей в день данных, которые могут быть сгруппированы для статистических целей?
- 10. Лучший способ обновить 3-4 столбца в таблице из 30 миллионов записей ежедневно
- 11. Извлечение миллионов записей через API
- 12. Повышение производительности с набором миллионов записей
- 13. быстрый способ решить 100 миллионов A-записей в Python
- 14. Лучший способ обновить 40 миллионов строк в партии
- 15. Лучший способ выбрать из миллионов строк в Oracle DB
- 16. Лучший бесплатный способ хранения 20 миллионов строк в день?
- 17. Лучший способ моделирования миллионов существующих проверок в Aerospike?
- 18. Создание XML для миллионов записей
- 19. Массовая вставка сотен миллионов записей
- 20. SQL Выбор записей из Mutli миллионов записей
- 21. Лучший способ обновить более 12 миллионов записей Loop или no loop
- 22. Какой лучший способ создать CSV-файл с огромными данными (5 миллионов записей)?
- 23. Лучший способ редактирования записей в ASP.NET?
- 24. Лучший способ создать группу записей в databse
- 25. Какой лучший способ сортировать отдельные цифры?
- 26. Java три атрибута, лучший способ сохранить + сортировать
- 27. Оптимизация SQLite для миллионов записей?
- 28. Обновление миллионов записей в SQL Server 2012
- 29. Эффективный способ получить 10 миллионов записей из SQL
- 30. Эффективный способ удаления повторяющихся строк из миллионов записей
Я пробовал несколько тестов с шагом pentaho, он отлично работает, когда я использую шаг генератора строк, но зависает или падает, когда я использую вход cvs. Не знаю, почему. – DUnkn0wn1
Возможно, из-за размера вашего набора данных. Убедитесь, что «ленивое преобразование» выключено. Попробуйте настроить настройку порога свободной памяти. –
Спасибо. Это помогло. Уменьшение размера буфера также помогает. – DUnkn0wn1