2012-01-25 2 views
1

Я читаю некоторые данные из больших таблиц в Интернете, чтобы заполнить базу данных. Некоторые из символов отображаются на моем экране, но я делаю такие вещи, когда я царапаю: !¬†√Öland IslandsСкребок - кодировка символов

Я использую file_get_contents для захвата необработанных данных. Это выглядит хорошо после того, как я очистил его (т.е., если я просто var_dump исходный результат): Åland Islands

Затем я превращаю данные в массив и записываю их в текстовый файл или файл sql. Что мне нужно сделать, чтобы сохранить форматирование символов?

+1

Я думаю, вы должны начать с [Что каждый программист абсолютно, положительно нужно знать о кодировках и наборах символов для работы с текстом] (http://kunststube.net/encoding/). После этого ваш вопрос может ответить. – deceze

+0

Спасибо, я проверю это. Действительно ценю это. –

+0

Deceze - это дало мне полное понимание кодировки символов. Спасибо. Вы принимаете пожертвования? –

ответ

1

Когда «Å» повернуто на «! ¬ † √ ...» (пять символов), то это, скорее всего, следствие двух или более неправильных кодовых преобразований. Одно неверное преобразование имеет тенденцию превращать символ в другой символ или в какую-либо пару или, возможно, триплет символов, но вряд ли пять символов.

Если после скремблирования все выглядит нормально, вы должны выяснить, какая кодировка символов используется, и проверить, как вы записываете данные в файл. Если данные кодируются в кодировке UTF-8, как я подозреваю (требуется более или менее компиляция географических названий по всему миру), то операция записи должна быть такой, которая работает с данными UTF-8, и при проверке полученного результата в файл, проверяющее программное обеспечение должно также считывать данные в кодировке UTF-8.

Смежные вопросы