Сергей Бесараб aka stean
ЦИФРОВОЕ «КНИГОПЕЧАТАНИЕ»
Пошаговое руководство по оцифровке книг
Часть 1
Задеть больную тему качественного перевода бумажных изданий в цифровую форму заставляет сама жизнь. В электронных интернет-библиотеках книги появляются довольно новые, но вот качество их обработки оставляет желать лучшего. Страницы не обрезаны, картинки размыты, текстовый (OCR) слой не добавлен и ещё много всяких больших и маленьких огрехов.
Понимаю, бывают случаи, когда необходимо быстро создать электронную копию для собственных нужд, но должно быть совестно выкладывать такой полуфабрикат в Сеть и заставлять людей страдать (ибо чтением назвать процесс просмотра таких «шедевров» язык не поворачивается). Если уж у вас нет сил, чтобы отсканированный «манускрипт» привести в приемлемый вид, — просто заархивируйте сканы и выложите на специализированных форумах. Поверьте, всегда найдутся люди, готовые пожертвовать своим временем для создания электронного варианта книги, за который потом не было бы стыдно перед её читателями.
Итак, возвращаясь к нашим баранам. Основы «DJVU-печатания» были рассмотрены в «Компьютерных вестях» №№ 5–6 за 2007 год Андреем Ачиновичем. Дабы не переписывать уже имеющуюся информацию, остановимся на некоторых нюансах, связанных, в основном, с качеством создаваемых сканов книг, а также на появившихся нововведениях и улучшениях, с позволения сказать, техпроцесса. Времени после публикации вышеупомянутой статьи прошло довольно много — появились новые версии прежних программ, да и разработаны новые утилиты. Конечно, тема процесса создания книг затёрта уже практически до дыр на различных форумах и в печатных изданиях, но, как ни странно, улучшению качества недавно отсканированных книг это не способствует. Цель статьи — поднять уровень уже существующих «Гуттенбергов» века компьютерного и привлечь новичков к этому важному делу.
Этап первый: сканирование
Здесь особенных премудростей нет — как правило, выставления разрешения 300 dpi для страницы в формате Gray вполне достаточно. Всё остальное зависит только от сканера. Кстати, обложку книги и особо важные иллюстрации я всё-таки рекомендую сканировать в цвете (16- или 24-битном), опять же — для того, чтобы наша цифровая книжка получилась красивая. Кроме того, желательно разворот книги на сканерном стекле особенно не перекашивать и не менять каждый раз его местоположение. Потом будет проще всё лишнее обрезать (не стоит полностью уповать на возможности автоматического разворота и разрезания страниц, имеющихся в пакетах типа ABBYY FineReader).
Сканировать в разрешении больше 300 dpi смысла нет, так как, во-первых, увеличивается износ механики сканера (к примеру, мой старый Mustek 12000 SP+ на 300 dpi сканирует страницу за один проход, а на 600 останавливается четыре раза), а во-вторых, разрешение впоследствии можно исправить вручную, с помощью специализированного ПО (об этом ниже). Сканирование, на мой взгляд, во всей технологии e-book самый нудный процесс, и тенденции к облегчению и упрощению пока не намечается. Всё равно переворачивать страницы приходится вручную. Хотя, к примеру, в некоторых сканерах производства HP возможности пакетного сканирования сводят неудобства до минимума. Настроил один раз качество и разрешение сканируемой картинки — и знай себе переворачивай страницы да не забывай нажимать кнопку «Scan» на крышке сканера. Всё остальное уже сделает автоматика. В результате в выбранную папку будут ложиться готовые сканы.
Что же касается владельцев не столь продвинутой техники, то им придётся пользоваться старым добрым
IrfanView с установленным специализированным плагином
AutoScan (labun.com/autoscan.zip) от Eugen Labun. Скачиваем данный архив со страницы автора и распаковываем файлы
autoscan.vbs и
AutoWindowEnabler.exe в директорию с установленным
IrfanView. Далее заходим в меню
Файл > Получить/Отсканировать, выбираем режим сканирования «Одно изображение» и сканируем и сохраняем образец с нужными нам параметрами. Назвать первый скан лучше всего
001.* (так советует автор). Теперь запускаем распакованный ранее файл
autoscan.vbs. Программа покажет заданные ранее параметры и после нажатия на «
OK» начнётся автоматическое сканирование через определённые промежутки.
Файлы сохраняются с именами
001.*,
002.*,
003.* и т. д. в ту же директорию, где и первый файл. Файл
AutoWindowEnabler.exe предназначен для слежения за окном
IrfanView (часто бывает, что во время открытого TWAIN-диалога окно просмотрщика становится неактивным, а то и вовсе исчезает с экрана). Кстати, если вдруг скрипт что-то воспроизводит не так, как бы вам хотелось, или просто нужно изменить настройки — достаточно просто ещё раз произвести тестовый запуск
IrfanView, а потом опять запустить макрос. Или же, щелкнув правой кнопкой мыши по файлу
autoscan.vbs, выбрать «Изменить» и внести необходимые параметры вручную:
' You can change these settings:
StartingIndex = 1
Increment = 1
NumberOfDigits = 3
SkipExistingFiles = True ' True or False
DelayBetweenScans = 0 ' Seconds
SetScanDPI = False ' Try to set to True only if
' Your scanner does not preserve scan resolution
DPI = 300 ' has no effect if SetScanDPI is False
Как можно догадаться,
StartingIndex показывает порядковый номер первого файла (от которого будет вестись счёт),
Increment — величину, на которую будет увеличиваться порядковый номер каждой новой сканируемой страницы.
NumberOfDigits — число знаков в цифровом индексе файла.
DelayBetweenScans — задержку между окончанием одного прохода сканера и началом следующего (выставляется она строго экспериментальным методом и занимает ровно столько времени, сколько вам потребуется, чтобы перевернуть страницу).
SetScanDPI — принудительное задание разрешения сканирования (необходимо в случае, если TWAIN-драйвер сканера такой возможности не предоставляет). Может принимать значение либо
TRUE, либо
FALSE; по умолчанию стоит второе.
DPI — значение разрешения сканирования в случае выбора предыдущего параметра «
TRUE». Сохраняем исправленный документ (отмечу, что лезть ручками можно только (!) в данную секцию, упаси вас бог экспериментировать с остальными, недоступными разуму рядового пользователя, параметрами — в результате таких необдуманных действий вместо картинки можно получить чёрти что).
Более продвинутым является использование специальной утилиты для потокового сканирования
PaperCapture (djvu-soft.narod.ru/recogniform_paper_capture.rar) от компании Recogniform. После скачивания архива и его распаковки первым делом стоит запустить имеющийся. reg файл, дабы в дальнейшем избежать неожиданных действий со стороны программы. Затем просто