2012-06-03 3 views
4

У меня есть строка, как google.com в Python, которую я хотел бы разделить на две части: google и .com. Проблема в том, где у меня есть URL-адрес, такой как subdomain.google.com, который я хотел бы разбить на subdomain.google и .com.Python URL-расщепление

Как отделить остальную часть URL-адреса от TLD? Он не может работать на основе последних . в URL-адресе из-за TLD, таких как .co.uk. Обратите внимание, что URL-адрес не содержит http: // или www.

+2

Это становится гораздо более забавной проблемой с неминуемыми новыми gTLD. Вскоре мы также разделим «search.google». –

ответ

0

Для этого вам понадобится список допустимых доменных имен. Верхний уровень (.com, .org и т. Д.) И коды стран (.us, .fr и т. Д.) Легко найти. Попробуйте http://www.icann.org/en/resources/registries/tlds.

Для второго уровня (.co.uk, .org.au) вам может потребоваться найти код каждой страны, чтобы увидеть его поддомены. Википедия - ваш друг.

После того, как у вас есть список, возьмите последние две части от имени, которое у вас есть (google.com или co.uk), и посмотрите, находится ли он в вашем втором списке уровней. Если нет, возьмите последнюю часть и посмотрите, находится ли она в списке верхнего уровня.