2009-11-10 2 views
1

с указанием URL-адреса известной компании (например, http://mcdonalds.com/), как бы вы автоматически и надежно нашли название компании (в данном случае «Mc Donalds»)?найти имя компании по адресу

Благодаря

Edit: кто голосовал, чтобы закрыть этот вопрос, так что, возможно, я должен объяснить мотивацию. У меня есть большой список URL-адресов компаний, и я хочу найти данные о каждой компании с помощью Google Maps. И поиск в Google Картах с именем компании работает намного лучше, чем URL.

Удаление «http» и «com» ​​действительно во многих случаях, особенно для известных компаний, но не для всех. Я обнаружил, что записи whois не очень помогли.

Я надеялся, что к URL-адресам существует какая-то публичная база данных, соответствующая компаниям, но до сих пор не встречается.

+2

Remove "HTTP: //" и ".com"? (SCNR) Серьезно: можете ли вы быть более конкретным относительно того, чего вы хотите достичь? –

+1

На самом деле, это имя «Макдональдс» (не пространство, а апостроф). Я только что проверил их сайт. – Boldewyn

ответ

1

Вам нужно будет создать свою собственную таблицу поиска. Вам нужно было бы попробовать и проанализировать эту информацию из html по URL-адресу для получения точных данных, например: получить заголовок страницы Html или найти сообщение об авторском праве?

+0

Ничто не было бы безупречным и точным, вам пришлось бы их рассмотреть. –

+0

Да, я надеялся, что такой стол уже существует, и я могу его повторно использовать. – hoju

1

Достаточно вероятно, что они будут иметь его в элементе <title/>. Разберите это и сравните его с доменом веб-сайта. Если есть существенное совпадение, это ваш матч. Если нет, попробуйте некоторые эвристики по названию (например, имя - все до >> или такое).

Если это более крупная компания, вам также может быть повезло, глядя на запись NIC (ака Whois) для своего домена.

+0

, если нет, метатеги, скорее всего, включают его – scunliffe

+0

Но они настоящие беспорядки. Dublin Core далеко не известен даже в отделах PR этих компаний. Чтобы разобрать их для чего-то, чего вы не знаете, это даст вам очень плохой шанс успеха. – Boldewyn

0

Вы можете использовать информацию whois. Там должны быть библиотеки, которые позволят вам сделать это чистым способом. Вы не указали, какую технологию вы будете использовать ...

1

Whois База данных может оказать некоторую помощь, хотя всегда есть краевые случаи, с которыми вам придется обращаться с большим усилием.

1

Если вы хотите быть точным, я бы сказал amazon mechan turk.

+0

хорошая идея, но я слишком дешевый! – hoju

1

Попробуйте использовать cURL и DOMDocument.

loadHTML ($ result); $ title = $ dom-> getElementsByTagName ("title"); echo $ title-> item (0) -> nodeValue; ? >

Посмотрите на мета-тег

+1

этот пример, похоже, проверяет тег заголовка, и вы предлагаете проверить метатег. Оба являются хорошими идеями, но в целом не будут надежными. – hoju

Смежные вопросы