У меня есть текстовый файл с разделителями табуляции в hdfs, который выводится из некоторой текстовой аналитики, созданной кем-то, которая выглядит так. Реальный файл имеет ширину 18 тыс. Столбцов, а когда он обновляется ежемесячно, количество столбцов не является статическим, ни имена столбцов.Запросить столбец для значений строк в HDFS
Product ID [I love peanuts] [Your mom is silly] [Let's eat pizza]
P-ABCD 0 0 1
P-1234 1 1 0
Мне нужно написать программу, которая будет искать или запрос для «Едим пиццу» и вернуть P-ABCD.
Я использую Python в данный момент, но я новичок и в python, и в карте, поэтому у меня возникают проблемы с тем, как решить эту проблему. Ситуация довольно странная, я не нашел ничего другого с решением.
Я думаю, если бы я мог повернуть «стол», так что это выглядело так:
ProductID Phrase
P-ABCD [Let's eat pizza]
Это было бы легче работать, но я не уверен, какой язык или технология будет быть лучше. Любые мысли о том, как вы его решаете?