Я хочу написать программу, которая может выполнять поиск в файлах исходного кода для определенных шаблонов ... другими словами: вход представляет собой кусок кода, например:Apache Solr - Как индексировать файлы исходного кода
int fib (int i) {
int pred, result, temp;
pred = 1;
result = 0;
while (i > 0) {
temp = pred + result;
result = pred;
pred = temp;
i = i-1;
}
return(result);
}
Выходные файлы - это файлы, содержащие этот фрагмент кода или аналогичный код.
В коде Open Source World используется в других проектах. Особенно библиотеки часто копируются в проекты. Чтобы облегчить исправление ошибок, мне нужно знать, в каких проектах используются конкретные библиотеки или код.
Поэтому я хочу попробовать использовать apache solr. Я не знаю, хорошая ли это (я буду рад всему, что может мне помочь)
Мой план состоит в том, чтобы индексировать мои файлы исходного кода ... поэтому мне нужны некоторые инструменты? tokenize файлы исходного кода. Например, дайте мне все имена функций, переменных и т. Д. Выход, который я могу использовать для подачи индекса solr. Но я не уверен, может быть, есть уже токенизатор или dataimporthandler в apache solr, которые делают трюк?