2012-05-05 13 views
0

у меня есть некоторые данные из DBpedia с помощью Jena и так Выход Jena основан на XML, так что некоторые обстоятельства, что XML-символы должны относиться по-разному, как следующее:что это за кодировка?

Guns n ' Roses 

Я просто хочу знать, какие это? Я хочу декодировать/кодировать мой вход на основе вышеуказанного кодирования (r) с помощью javascript и отправить его обратно в сервлет.

(отредактированный пост, если удалить пространство между & и усилителем вы получите правильный характер, так как в StackOverflow я не мог найти способ сделать это, я решил, как это!)

+0

Это закодировано дважды, и это (скорее всего) ошибка. Где это происходит? –

ответ

2

Кажется, что это кодировка сущности XML и цифровая ссылка (десятичная).

числовая ссылка на символ относится к символу его Universal Character Set/Unicode точки кода, и использует формат

Вы можете получить некоторую информацию здесь: List of XML and HTML character entity references on Wikipedia.

Ваш персонаж номер 39, будучи апостроф: ', который также можно ссылаться со ссылкой объекта в характер: '.

Чтобы декодировать это, используя Javascript, вы можете использовать, например, php.js, который имеет функцию html_entity_decode() (обратите внимание, что это зависит от get_html_translation_table()).


UPDATE: в ответ на ваши изменения: В принципе это то же самое, единственное отличие состоит в том, что он был кодируются дважды (возможно, по ошибке). & - амперсанд: &.