2010-08-26 6 views
0

У меня есть такие файлы синтаксического (от слома) с Python:Анализировать HTML с помощью AJAX JSON в

some HTML and JS here... 
SomeValue = 
{ 
    'calendar': [ 
    {  's0Date': new Date(2010, 9, 12), 
      'values': [ 
        { 's1Date': new Date(2010, 9, 17), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 18), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 19), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 20), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 21), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 22), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 23), 'price': 9900 }] 
    }, 
    'data': [{ 
    index: 0, 
    serviceClass: 'Economy', 
    prices: [9900, 320.43, 253.27], 
    eTicketing: true, 
    segments: [{ 
      indexSegment: 0, 
      stopsCount: 1, 
      flights: [{ 
        index: 0, 

... and a lot of nested data and again HTML and JS... 

мне нужно разобрать его и извлечь все данные JSON. Теперь я использую регулярное выражение с очисткой всех функций «\ n» и «\ t» и eval(), чтобы преобразовать их в словарь Python. Мне действительно не нравится это решение, особенно eval(). Но я посмотрел на BeautifulSoup и lxml и не нашел того, что поможет разобрать его.
Можете ли вы предложить что-то лучше, чем регулярное выражение и eval() для этой задачи? Пример
Страница: http://codepaste.ru/3830/

+0

Все ли JS заключены в '