2015-01-11 2 views
0

Я хочу извлечь эти телефонные номера с веб-сайта либо в виде изображения, либо, если возможно, в виде строки.Что это за изображение хранится как?

Вот пример с веб-сайта: Link

Как вы можете видеть номер телефона изображение.

Однако я не могу показаться, чтобы просмотреть изображение, когда я открываю источник изображения:

<img src="http://www.callmyname.sg/search/display_phone_number/VUhkVE1WOW5BV1lFWWxSbVhUdFRObGMzQlRBRU9nPT0=">

Но если положить в HTML и просматривать в браузере, вы можете увидеть прекрасный образ.

+0

Этот вопрос не соответствует теме, потому что речь идет не о программировании. – Emil

ответ

1

Это решение, чтобы люди, как вы от соскабливания их веб-сайт :)

URL-адрес http://www.callmyname.sg/search/display_phone_number/VUhkVE1WOW5BV1lFWWxSbVhUdFRObGMzQlRBRU9nPT0= приводит к сценарию, который генерирует изображение - вероятно, на основании аргумента.

VUhkVE1WOW5BV1lFWWxSbVhUdFRObGMzQlRBRU9nPT0=

Поскольку заканчивается знаком равенства, я пытался расшифровать его, как base64:

UHdTMV9nAWYEYlRmXTtTNlc3BTAEOg==

Теперь он выглядит еще как base64, так что я попробовал другой раунд:

PwS1_gfbTf];S6W70:

Таким образом, это явно не открытый текст (или не закодированный с помощью base64), что было бы смешно и позволило бы вам извлечь номер таким образом. Они либо используют какой-то специальный шифр, либо хранят номера в базе данных с этим в качестве идентификатора.

Я не думаю, что вы можете украсть номер телефона легко, только используя OCR.


При посещении URL, вы получите мусор, так как они не посылают надлежащего заголовок MIME

�PNG IHDR�,���tRNS���7X}4IDATx���_HZo�g�� E��p��l��EHTx!]�DtQ�M�.x3��.dx�*b]Dl"]�D���bQq.B����Z2$��:ȡ�wq��9�s���Cx>W�}���ٳ��ڶ����]���Ǐ�/_���ݿ���ahh���\q����������555�=���*�"�*�*�f�����}uu�e�d2���o����?00p����J%ȴds���BB�˲�`�`0RJy����n�{cc�e�H$b�ۻ����(�~�_����A4�Z��_�V|��J�w�����t:��333.��ƕ������+^����L`���֑��W��3�X�" y���$p'U"��F���y���z&�ioo��萟�*� ����\�L&Sx����p�e���ׯ_R��y�J%�~����|qq��|e�Z%:�J�{��q��nW�ՉD"�J��~�n4��������̔Ty���qF���>BwGa�z����������8��ߡc�f��B�>!�Ub�N�s���|�F�^/B���Lj��i��NfJ��͛D"����� o!t��`����fvv�eم��V���D)�����x���d2966&�n� ^,0O4��(!D��l�h46�-�~��Tً>B�"�Q�>,�P��[email protected] \�BU,�P���=G SA+GIEND�B`�

, но это действительно просто обычный PNG изображения:

img http://www.callmyname.sg/search/display_phone_number/VUhkVU5scGlBV1lDWWdFelVEUUhZQWRvQlRZR013PT0=

0

Это фактически png-файл, сгенерированный компьютером перед его отображением. Вы можете ссылаться на него с любой другой страницы, но вы также можете легко загрузить его (щелкните правой кнопкой мыши, сохраните как ...) Примечание: я проверил это, убедитесь, что вы сохранили изображение с расширением .png, а не .html, которому он по умолчанию.

<img src="http://www.callmyname.sg/search/display_phone_number/QkNOVE1RODNBV1lDWWdVM1V6ZFZNZ1JyRFQ0Rk1BPT0=">

0

Это PNG изображения, но сервер не определяет заголовок правильного содержания. Он сообщает вашему браузеру, что это не html-страница в кодировке UTF-8, поэтому вы просто видите мусор (включая буквы PNG в начале).

Тег <img>, хотя не знает, как отображать текст, поэтому он просто пытается загрузить его как изображение (и с успехом).

Я не вижу способа извлечь цифры каким-либо другим способом, чем просто читать изображение. Поскольку он содержит только числа и будет иметь одинаковый формат все время, возможно, вы можете найти простой способ разобрать его, а не использовать полноценную библиотеку OCR.