Адаптация StanfordCoreNLP для обработки шумного веб-текста?

Я тестировал StanfordCoreNLP NER и все на сайте вручную, и, похоже, они зависят от очень специфических/правильных английских сигналов для обнаружения объектов, например. При работе с веб-текстом, хотя, где вы могли бы иметь какой-то текст, какАдаптация StanfordCoreNLP для обработки шумного веб-текста?

John Doe

доцент компьютерных наук

Стэнфордского университета

StanfordNLP, кажется, некоторые проблемы (обозначение всего, что одна организация из-за отсутствия предлогов/пунктуации). Есть ли что-нибудь, что я могу сделать, чтобы позволить NER лучше обрабатывать такой текст (например, выполнить некоторую предварительную обработку текста)?

источник

2013-12-06 Jess

Но все это не одна организация! Я просто попробовал ваш пример в своем онлайн-демо, и он правильно идентифицирует «Джон Доу» как человека и «Стэнфордский университет» как организацию. – mbatchkarov

Интересно, я не заметил, что были несколько классификаторов, поскольку я использовал 7-класс по умолчанию; 3, кажется, лучше всего работает с общей моделью .. есть ли способ использовать все теги 7-класса, сохраняя при этом точность 3- и 4-класса? – Jess

Я считаю, что у них есть довольно надежный аннотатор предложений, который вы можете настроить для таких случаев. Кроме того, в целом модели ML склонны изучать языковые характеристики и хуже работать на разных стилях/доменах. Я бы предложил обучить новую модель документам из вашего домена. – Yasen

Добавление точки (.) В конце каждой строки дает лучшие результаты. (Поскольку разделитель предложения использует точку в качестве измерителя)

источник

2014-07-18 05:03:48

Адаптация StanfordCoreNLP для обработки шумного веб-текста?

ответ

Смежные вопросы