Я извлек отзывы о фильме в IMDB, но в отдельных отзывах есть много пустых строк между ними. Он неструктурирован и очень трудный для просмотра. Я должен применять определенные функции по каждому из них отдельно, а затем хранить их вместе как 1 для некоторого интеллектуального анализа текста для некоторых других функций.Скребок Просмотрения фильмов с IMDB с использованием rvest
Как я могу их структурировать и получать к ним по одному, а также как объединить их и сохранить вместе?
Вот мой код для соскабливания отзывы
ID <- 1490017
URL <- paste0("http://www.imdb.com/title/", ID, "/reviews?filter=prolific")
MOVIE_URL <- read_html(URL)
ex_review <- MOVIE_URL %>%
html_nodes("p") %>%
html_text()
Это значительно улучшило извлечение. Большое спасибо за ответ. Однако моя основная проблема заключалась в том, чтобы обрабатывать просмотры, которые я извлек, поскольку я не могу этого сделать. Обработка их как удаление удаления нескольких строк между каждым просмотром. Также комбинируя текст, чтобы сформировать один большой абзац всех обзоров. Так как мне нужно также провести общий анализ. –
Работает ли мой отредактированный ответ? – motorrrr
Разрывы строк не удаляются с помощью этого метода. Другие вещи прекрасно работают :) –