У меня 40 000 файлов HTML. В каждом файле есть таблица, содержащая прибыль & отчет об убытках конкретной компании.Скребковые данные в Stata
Я хотел бы очистить все эти данные до Stata. (Или, альтернативно, в файл Excel/CSV). Конечным продуктом должен быть файл Stata/Excel, содержащий список всех компаний и сведения об их балансе (выручка, прибыль и т. Д.)
Могу ли я узнать, как это можно сделать? Я попробовал Outwit, но это не кажется достаточно хорошим.
Нет оснований считать, что Stata по своей сути менее силен здесь, чем язык сценария, и, конечно же, нет оснований ограничивать инструменты, используемые для строковых функций. Никакая программа не может извлечь смысл без указания того, какой смысл нужно извлечь. Эта точка может быть решена только с помощью примеров конкретных файловых структур и определения того, какой код работает в другом программном обеспечении. –