Трудно точно определить бэкэнд CMS. Почти все системы CMS поддерживают пользовательские темы, которые будут иметь совершенно другой HTML-код.
Вашей лучшая догадка была бы попытаться определить CMS по:
Файл robots.txt в корневой директории.
Существование страницы входа в панель администратора CMS.
Структура папок, используемая для обслуживания ресурсов страницы, таких как изображения и css-файлы.
Наличие конкретного файла базы данных CMS.
Структура URL-адресов служб по умолчанию, таких как RSS.
Например, если вы угадать, если определенный веб-сайт использует WordPress, вы могли бы сделать следующее:
1- проверка наличия robots.txt, и если он содержит «Disallow:/в.ч. -admin/", тогда есть высокая вероятность, что это веб-сайт WordPress.
2- Если вы получили ответ от доступа к панели администратора WordPress по умолчанию в http://domain_name/wp-admin, то есть высокая вероятность, что это веб-сайт WordPress.
3- Если этот файл существует http://domain_name/wp-mail.php, то есть высокая вероятность, что это сайт WordPress.
4- Если мы получим действительный RSS-канал по этому адресу http://domain_name/?feed=rss2, тогда есть высокая вероятность, что это сайт WordPress.
Теперь, если сайт соответствует 3 из 4 правил обнаружения, перечисленных выше, вы можете с уверенностью сказать, что это веб-сайт WordPress.
Вам нужно сделать то же самое в определении уникальных правил обнаружения для каждой CMS, которую вы хотите обнаружить.
Обратите внимание, что существуют существующие службы, такие как http://whatcms.org/ и http://guess.scritch.org/, которые выполняют то, что я описал в этом ответе.
Удачи вам!