2015-06-09 6 views
-4

Я делаю что-то вроде обнаружения языков сайта. Это около 1k веб-сайтов, поэтому я не могу сделать это 1 к 1. Думаю, для этого мне нужно получить код html на сайте python и получить все тексты, проанализировать. Правильно ли, кто-нибудь сделал что-то подобное, было бы очень полезно :)Как узнать, не является ли сайт неанглийским?

+0

SO не является кодовым письмом. Просьба показать ваши попытки и любые ошибки, с которыми вы можете столкнуться. – sgp

+0

http://stackoverflow.com/questions/4605062/detecting-whether-or-not-text-is-english-in-bulk это может помочь – Ajay

+0

Вы имеете в виду код или содержание? Как насчет сайтов, поддерживающих несколько языков/i18n? – jonrsharpe

ответ

0

Спасибо всем за ответ, я нашел способ к нему. Перечислив рейтинг alexa сайта и большую часть страны посетителя. Если это США или другая англоговорящая страна, то это английский сайт.

сделал это by python.

Смежные вопросы