Я работаю над проектом, который требует работы с Genia corpus. Согласно литературе, Genia Corpus изготавливается из статей, извлеченных путем поиска 3 Mesh-терминов: «фактор транскрипции», «клетка крови» и «человек» на Medline/Pubmed. Я хочу извлечь полную текстовую статью (которая свободно доступна) для статей в Genia corpus из Pubmed. Я пробовал много подходов, но я не могу найти способ загрузить полный текст в текстовом или формате XML или Pdf.Как скачать полный текст статьи из Pubmed?
Использование ENTREZ утилиты, предоставляемые NCBI:
Я попытался использовать подход, упомянутые здесь - http://www.hpa-bioinformatics.org.uk/bioruby-api/classes/Bio/NCBI/REST/EFetch/Methods.html#M002197
который использует Рубиновый драгоценный камень Bio, как это, чтобы получить информацию для данного PubMed ID - Bio :: NCBI :: REST :: EFetch.pubmed (15496913)
Но, он не возвращает полный текст для PMID.
Внутри она делает вызов, как это - http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=1372388&retmode=text&rettype=medline
Но, как драгоценный камень рубин и выше вызова не возвращают полный текст.
В дальнейшем поиске в Интернете, я обнаружил, что допустимые значения PubMed для rettype и retmode не имеют возможность получить полный текст, как указано в таблице здесь - http://www.ncbi.nlm.nih.gov/books/NBK25499/table/chapter4.T._valid_values_of__retmode_and/?report=objectonly
Все примеры и другие сценарии, которые я видел в Интернете, - это только извлечение рефератов. авторов и т. д., и ни один из них не обсуждает извлечение полного текста.
Вот еще одна ссылка, что я обнаружил, что использует Python пакет Bio, но только доступ к информации об авторах - https://www.biostars.org/p/172296/
Как загрузить полный текст статьи в текстовом или XML или Pdf формат с использованием Entrez utils, предоставляемый NCBI? Или есть уже доступные скрипты или веб-сканеры, которые я могу использовать?
Можете ли вы разместить ссылку на одну из тех статей, которые хотите загрузить, и указать, какую часть из них вам нужно? –
Я хочу загрузить бесплатный полный текст для статей Pubmed с использованием PMID. Например: если запрос PMID составляет 10438913 в баре поиска (http://www.ncbi.nlm.nih.gov/pubmed), то опубликованные результаты показывают, что эта статья является бесплатной статьей. Итак, щелкнув по этой статье, я перейду на http://www.ncbi.nlm.nih.gov/pubmed/10438913, а на правой верхней стороне вы увидите кликабельную иконку «Final version free». Если вы нажмете на это, вы получите версию в формате pdf. Теперь, как я могу автоматизировать этот шаг для нескольких статей? –