Я очень новичок в использовании Google Cloud Dataflow. Я хотел бы получить декартово произведение двух PCollections. Например, если у меня есть два PCollections (1, 2)
и ("hello", "world")
, их декартово произведение ((1, "hello"), (1, "world"), (2, "hello"), (2, "world"))
.Как получить декартовое произведение из двух PCollections
Любые идеи, как я мог это сделать? Кроме того, поскольку декартово произведение может быть большим, я надеюсь, что решение будет лениво создавать продукт и тем самым избежать огромного потребления памяти.
Спасибо!
У вас есть более подробная информация о том, что вы пытаетесь сделать? Насколько велики каждый из PCollections? Существует несколько способов достижения этой цели, и какая из них лучше зависит от причины, по которой вы хотите декартовой продукции и фактических PCollections. –
Два PCollections идентичны. Они содержат примерно 100 000 кортежей типа '(String, String)'. Я использую словарь английских слов и получаю их фонетическую транскрипцию, чтобы генерировать каламбуры из 2 слов, такие как: «fantasti-CAL-ifornia». –
Для прямого декартового решения [this] (http://stackoverflow.com/a/41051283/377366) представляется лучшим ответом на данный момент. – KobeJohn