2012-04-13 5 views
1

Мой вопрос в том, как я могу повторно написать следующее решение для уменьшения с помощью карты и, возможно, дозировать? У меня возникли проблемы со следующим решением.Миграция Уменьшить до

Это решение должно решить следующую проблему. В частности, у меня есть два файла csv, обработанные clojure-csv. Каждый вектор векторов можно было бы назвать bene-данными и gic-данными. Я хочу взять значение в столбце в каждой строке данных bene и посмотреть, является ли это значение другим столбцом в одной строке в gic-данных. Я хочу скопировать эти значения bene-данных, не найденные в gic-data, в вектор. Первоначально я пытался аккумулировать карту, и это началось с переполнения стека при попытке отладки печати. В конце концов, я хочу взять эти данные, объединиться с каким-то статическим текстом и вставить в файл отчета.

следующие функции:

(defn is-a-in-b 
    "This is a helper function that takes a value, a column index, and a 
    returned clojure-csv row (vector), and checks to see if that value 
    is present. Returns value or nil if not present." 
    [cmp-val col-idx csv-row] 

    (let [csv-row-val (nth csv-row col-idx nil)] 
     (if (= cmp-val csv-row-val) 
      cmp-val 
      nil))) 

(defn key-pres? 
    "Accepts a value, like an index, and output from clojure-csv, and looks 
    to see if the value is in the sequence at the index. Given clojure-csv 
    returns a vector of vectors, will loop around until and if the value 
    is found." 

    [cmp-val cmp-idx csv-data] 
    (reduce 
     (fn [ret-rc csv-row] 
      (let [temp-rc (is-a-in-b cmp-val cmp-idx csv-row)] 
       (if-not temp-rc 
        (conj ret-rc cmp-val)))) 
     [] 
     csv-data)) 


(defn test-key-inclusion 
    "Accepts csv-data param and an index, a second csv-data param and an index, 
    and searches the second csv-data instances' rows (at index) to see if 
    the first file's data is located in the second csv-data instance." 

    [csv-data1 pkey-idx1 csv-data2 pkey-idx2 lnam-idx fnam-idx] 

    (reduce 
     (fn [out-log csv-row1] 
      (let [cmp-val (nth csv-row1 pkey-idx1 nil) 
        lnam (nth csv-row1 lnam-idx nil) 
        fnam (nth csv-row1 fnam-idx) 
        temp-rc (first (key-pres? cmp-val pkey-idx2 csv-data2))] 

      (println (vector temp-rc cmp-val lnam fnam)) 
      (into out-log (vector temp-rc cmp-val lnam fnam)))) 
     [] 
     csv-data1)) 

представляют мои попытки решить эту проблему. Я обычно натыкаюсь на стену, пытаясь использовать дозу и карту, потому что мне негде аккумулировать полученные данные, если я не использую цикл recur.

ответ

2

Это решение считывает весь столбец 2 в набор один раз (так, это не лениво) для удобства написания. Он также должен работать лучше, чем повторное сканирование столбца 2 для каждого значения столбца 1. При необходимости отрегулируйте, если столбец 2 слишком велик для чтения в памяти.

(defn column 
    "extract the values of a column out of a seq-of-seqs" 
    [s-o-s n] 
    (map #(nth % n) s-o-s)) 

(defn test-key-inclusion 
    "return all values in column1 that arent' in column2" 
    [column1 column2] 
    (filter (complement (into #{} column2)) column1)) 

user> (def rows1 [[1 2 3] [4 5 6] [7 8 9]]) 
#'user/rows1 

user> (def rows2 '[[a b c] [d 2 f] [g h i]]) 
#'user/rows2 

user> (test-key-inclusion (column rows1 1) (column rows2 1)) 
(5 8) 
+0

спасибо. Я тестирую его. – octopusgrabbus

+0

Возможно '(defn test-key-включение [column1 column2] (remove (set column2) column1))'? Угощайтесь. – Thumbnail

Смежные вопросы