Я преобразовал файл pdf в word в txt. Я хотел бы плюнуть на каждый бит белого пространства, включая вкладки, возвращения, пробелы и т. Д., Так что каждое отдельное слово или серия чисел - это собственный элемент массива. Кажется, что это не работает в каждом случае. То, что я пытаюсь это ...Разбиение текстового файла на отдельные элементы массива
function displayContents(txt) {
var el = document.getElementById('main');
txt = txt.replace('\t',' ');
txt = txt.replace('\r',' ');
txt = txt.replace('\n',' ');
txt = txt.split(" ");
var contents = new Array();
for(var i in txt) {
var elem = txt[i];
var reg = /\d{6}/;
if (reg.test(elem)) {
contents.push(elem);
contents.push("</br>");
}
}
el.innerHTML = contents; //display output in DOM
}
Что я ищу, в частности, в этом документе, являются ряд чисел «112345» и т.д ... но я часто получаю результаты, такие как «ИНФОРМАЦИЯ 000100 Hard ". Итак, ясно, что я нахожу части, которые включают 6 цифр, но я получаю дополнительные вещи. Глядя на документ с ms word и символами, это часто пробелы, разрывы строк или вкладки. но не все пробелы становятся разделенными.
Любые мысли приветствуются.
Вы можете разделить с использованием регулярных выражений: 'TXT = txt.split (/ \ s /)', а затем добавить символы, которые появляются, не хватает: '/ [\ s \ u2001 ]/' – GitaarLAB
WOW. Это работало намного лучше, чем «». Спасибо большое. –
Добро пожаловать, заметьте, я обновил свой ответ. – GitaarLAB