Захотелось сделать из своего старого блога электронную книгу. Есть сервис http://newstoebook.com/ который при наличии RSS отлично справляется с этой задачей, но в RSS старого блога видно только 10 последних записей, поэтому решил попробовать сделать сам.
Задача, сразу скажу, нетривиальная и вряд ли стоит описывать процесс подробно.
Пока удалось следующее: с помощью скрипта на Python’е скомпилировать все посты (вместе с комментариями) в один html-файл, убрать всё лишнее (меню, боковую панель, форму для отправки комментариев и прочее), конвертировать в epub, mobi, fb2, pdf с помощью calibre из того же скрипта.
Пока что главная задача, придумать, как скриптом вытянуть все нужные картинки и упаковать их вместе с текстом, а еще с помощью css сделать книгу более читабельной, потому что выглядит она ужасно. Дальше нужно будет разбираться с особенностями каждого формата.
>скрипта на Python’е скомпилировать все посты
А не проще это было делать из того XML-файла экспорта, что Опера генерит? Может, там простого XSLT-преобразования хватило бы, чтобы в FB2 перевести?
как вообще блог удобоваримо сохранить?
Для меня не проще по одной причине: кроме форматов mobi и fb2 я хочу еще pdf, в котором будет оригинальное оформление 🙂 Да и работа с html майоперы мне более знакома, чем вордпрессовский формат.
На питоне очень быстро можно накатать и сохранять в нужном формате. Обычный парсер и пара библиотек типа https://pypi.python.org/pypi/EbookLib/0.15 и https://github.com/mstamy2/PyPDF2