Я пытаюсь сделать определение языка с помощью Tika Server. Есть ли способ просить об этом?Включение определения языка с помощью Tika Server?
ответ
Просто запустите сервер Тика CLI, как обычно, с --language
флагом в качестве опции
например, в одном окне сделать:
$ java -jar tika-app-1.4.jar --language --server 1234
Тогда в другой сделать:
$ nc localhost 1234 < test.txt
en
$ nc localhost 1234 < spanish.txt
es
$ nc localhost 1234 < french.txt
fr
Pass в тексте, и вы вернете обнаруженный язык
Для полной л список различных режимов, которые поддерживают Тик CLI, просто запустите его с --help
Я смог сделать это с помощью tika-app, но не вижу правильных вариантов для этого с помощью tika-сервера. Есть ли конечная точка, которая может дать мне язык? – Vic
@Vic В настоящее время на сервере Tika нет конечной точки, но было бы довольно быстро добавить. Я предлагаю вам поднять его как [улучшение Apache Tika JIRA] (https://issues.apache.org/jira/browse/TIKA/), и, надеюсь, один из экспертов JAXRS может добавить его для вас! – Gagravarr
import org.apache.tika.language.LanguageIdentifier;
public class Test
{
/**
* Tika language detection. Take a glance to the org.apache.tika.language.LanguageIdentifier class API.
* @param args Command line arguments.
*/
public static void main(String[] args) {
String sTextFr = "Texte en français. Il doit être assez long pour permettre l'analyse.";
String sTextEn = "This is an english text.";
LanguageIdentifier lin = new LanguageIdentifier(sTextFr);
System.out.println(String.format("Language (french sentence): %s", lin.getLanguage()));
lin = new LanguageIdentifier(sTextEn);
System.out.println(String.format("Language (english sentence): %s", lin.getLanguage()));
}
}
Это, похоже, не решает вопрос - OP хочет использовать CLI Tika App в режиме сервера для определения языка, а не писать код Java – Gagravarr
Не делать рыть вокруг этой темы, но мне нужна эта функция в настройках Докера. official documentation не очень полезен, но кажется, что теперь он доступен через конечную точку /meta
- по крайней мере, в 1.14. Пример использования:
curl -T file.txt http://127.0.0.1:9998/meta --header "Accept: application/json"
Ответ будет таким:
{"language":"en", "Content-Encoding":"ISO-8859-1","Content-Type":"text/plain; charset\u003dISO-8859-1","X-Parsed-By":["org.apache.tika.parser.DefaultParser","org.apache.tika.parser.txt.TXTParser"]}
Для моей конкретной потребности, я использовал this Docker изображение.
Надеюсь, что это поможет!
- 1. Tika Server на Heroku
- 2. Изменение языка определения определения данных в SQL Server 2012
- 3. tika-app-1.7.jar vs tika-server-1.7.jar
- 4. Оценка методов определения языка
- 5. Основы определения языка C++
- 6. Компилятор для определения языка с использованием bison
- 7. Алгоритм определения вероятного языка текста
- 8. Ограничение языка Tika LanguageIdentifier только для определенных языков
- 9. PLT Redex: параметрирование определения языка
- 10. .htaccess правило для определения языка
- 11. Функция определения языка не работает
- 12. С определения языка этой переменной означает
- 13. Определения языка и метода Ruby
- 14. Невозможно извлечь текст с помощью TIKA
- 15. Исключить меню извлечения содержимого с помощью tika
- 16. Удалить кеширование PDFont с помощью Apache tika
- 17. Что такое самый простой способ использования API языка AJAX Google для определения языка с помощью PHP?
- 18. C++: включение определения класса в файл заголовка
- 19. Добавление AspectJ языка для определения joinpoints
- 20. Liferay: Условное включение в зависимости от языка
- 21. Присваивание определений естественного языка. Определения меток
- 22. Извлечь данные китайского языка из SQL Server с помощью PHP?
- 23. Python - urllib3 получить текст от docx с помощью сервера tika
- 24. Регулярное выражение для определения обычного языка
- 25. Система определения языка (язык) в html
- 26. Быстрая библиотека Java для определения языка твитов?
- 27. Python KeyError: «» для автоматического определения языка
- 28. Tika detect multipart/signed
- 29. Включение templatetag с помощью счетчика
- 30. Включение выписок с помощью Wintersmith
Когда вы говорите «Tika Server», вы имеете в виду сервер JAX-RS или tika-cli в режиме сервера? – Gagravarr
Тика-кли в режиме сервера. – user2145475