Python новичок здесь. Я хочу пройти через большой файл mbox, анализируя сообщения электронной почты. Я могу сделать это с:Parsing mbox files in Python
import sys
import mailbox
def gen_summary(filename):
mbox = mailbox.mbox(filename)
for message in mbox:
subj = message['subject']
print subj
if __name__ == "__main__":
if len(sys.argv) != 2:
print 'Usage: python genarchivesum.py mbox'
sys.exit(1)
gen_summary(sys.argv[1])
Но мне нужно больше контроля. Мне нужно получить байт позиции начала данного письма в файле mbox, и мне также нужно получить количество байтов в сообщении (как представлено на диске). И затем, в будущем, вместо повторения с начала файла mbox, мне нужно иметь возможность искать данное сообщение и просто анализировать его (отсюда одна из потребностей получения позиции байта на диске). Это большие файлы mbox и эффективность.
Цель всего этого заключается в том, что я могу сгенерировать итоговый файл, содержащий несколько небольших битов о каждом письме в mbox, а затем в будущем эффективно искать отдельные письма в mbox.
Я никогда не использовал 'mailbox', но я просто прочитал' help (mailbox.mbox) '. Не можете ли вы использовать метод '.iterkeys()' для получения итератора значений ключа, а затем использовать значения ключей для поиска сообщений? Почему вы хотите использовать байтовый индекс в качестве ключа для поиска сообщения вместо использования модуля ... пытались ли вы использовать модуль для индексирования сообщений по ключу? Если вы пробовали это, и это слишком медленно или что-то еще, скажите об этом. – steveha
Скажем, у меня есть mbox из 10 000 писем. Я не хочу читать/разбирать/повторять более 9998 из них, когда мне просто нужно последнее электронное письмо. Я хотел бы найти эту точку в файле mbox и просто прочитать это сообщение. –
@MarkFletcher DId вы получаете эту работу? Если это так, пожалуйста, дайте мне знать. – kingmakerking