?

Log in

No account? Create an account

Previous Entry | Next Entry

 Последнее несколько лет на просторах всемирной паутины появляется всё большее количество интернет-библиотек и небольших сервисов, с которых бесплатно (что не всегда законно) или же платно можно скачать практически любую книгу, журнал или газету. Чтение электронных книг стало для многих естественным, поэтому не удивительно, что сканирование книг набирает обороты и в библиотечном секторе. Многие библиотеки отдают оцифровку своих фондов сторонним компаниям, однако есть и те, кто приобретает книжный сканер и занимается этим самостоятельно. Давайте разберемся, насколько это легко и какие сложности могут встретиться на пути сканировщика книг. 

Первый вопрос, который приходит в голову - с чего начать?

 Шаг 1. Какую книгу создаем?

Хотим ли мы создать свою книгу или же только электронную копию уже существующей бумажной книги (наш случай)?

Шаг 2. Какой сканер выбрать?

Здесь возникают первые сложности, поскольку выбор - широк, а возможности - зачастую ограничены как денежными средствами, так и пространством для установки сканера.

Обыкновенный планшетный сканер - доступен (от 100$), есть практически в каждом доме. Сканировать одну-две книги уже проблематично, а оцифровывать им огромный библиотечный массив - просто мучение: каждый раз снова и снова поднимать крышку сканера, перелистывать страницу и закрывать крышку; а так как сканер рассчитан на сканирование расшитых документов и, как правило, не превышающих формат А4, появляется целый ряд проблем с книгами большего формата, а также с искажениями и затемнениями вблизи корешка.


 Планетарный сканер - пожалуй, самый затратный вариант. Здесь, в силу того, что сканирующая головка расположена сверху и на значительном удалении от сканируемого документа, затемнений не будет, да и скорость намного выше. Основной проблемой считается большое количество искажений. Их количество минимизируется, но не устраняется полностью за счет прижимного стекла, используемого в некоторых моделях. Существует и возможность повредить корешок книги (особенно если речь идет о ветхом издании), так как она должна быть развёрнута на 180 градусов.


 Книжный сканер на основе ЦФК (цифровых фотокамер), выглядящий достаточно экзотично, стоит на порядок меньше планетарного. Книга закреплена в колыбели и раскрыта на 90 градусов, что полностью исключает повреждение корешка, камеры закреплены над книгой, объективы направлены каждый на одну из страниц книги, благодаря чему сканирование происходит без искажений. Плюсом является равномерность освещения книги и скорость сканирования (листаем страницу, снимаем, и снова листаем). Единственный недостаток, так называемый эффект  «Margin crawl», обусловленный толщиной бумаги издания, заставляет изображения по мере сканирования немного продвигаться по горизонтали. Он устраняется изменением настроек кадрирования каждые 100-200 страниц при пост-обработке изображений менять настройки кадрирования.

Можно попробовать «отснять» книгу вручную, но качество этой самодеятельности, особенности учитывая отсутствия навыков, будет очень сомнительным.

 Итак, мы выбрали книгу, оцифровали ее и теперь у нас есть набор изображений, чаще всего - в формате JPG. 
 
Шаг 3. Каков должен быть формат книги? 

На этом этапе необходимо принять решение - хотим ли мы оставить книгу в виде изображений - наиболее легкий пусть, или создать файл книги в текстовом формате (DOC, RTF, TXT) с возможностью редактирования. 
Электронные книги, книги в электронном виде, создание электронных книг, электронные версии книг, книги электронный вариант, электронная книга ebook, электронные книги e book, устройства электронные книги, устройства чтения электронных книг, книги электронном виде, программа электронных книг,  создание электронных книг, электронные книги кпк, формат электронных книг, книга телефон, книги электронный вариант, программа чтения электронных книг, электронная книга история книги, программа создание электронных книг, txt book электронная книга

Если книгу надо создать в текстовом формате, не обойтись без программ для распознавания текста, таких как ABBYY FineReader или его бесплатный аналог CuneiForm. Но нужно учесть, что точность распознавания в современных программах хоть и высока, но не идеальна, и тем меньше (точность распознавания), чем хуже качество картинки так что придётся после распознавания проверять весь полученный текст.

 Процесс распознавания текста организован достаточно просто.

а) Выбираем программу для распознавания текста:

 ABBYY FineReader - наиболее популярная программа с множеством функций, имеет высокую надёжность (1-2 ошибки на страницу при хорошем качестве картинки (с разрешением 300 dpi, в сером или цветном режиме)). Стоимость программы составляет около 10000 р., в зависимости от количества лицензий и версии Corporate Edition (с поддержкой сетевых возможностей и без нее). Согласно официальному сайту программы (http://www.abbyy.ru), качество распознавания зависит от сложности исходного документа, правильности определения блоков, а также от настроек программы. Если оформление документа сложное, следует внимательно проверить, и, возможно, подкорректировать границы блоков, чтобы в обрабатываемую область попали все нужные символы. Большое влияние на качество распознавания оказывает режим, в котором был отсканирован исходный документ. Рекомендуется сканировать с разрешением 300 dpi, в сером или цветном режиме, в зависимости от того, нужно ли сохранить цвет в итоговом документе. Если сканирование ведётся с меньшим разрешением, системе может не хватить информации для правильного распознавания символов. Если в тексте встречаются специальные термины, программа может «не узнать» их. Тогда для повышения качества распознавания нужно будет добавить эти термины в словарь. Изменение настроек программы (Сервис/Опции/Распознавание) также может помочь повысить качество. В первую очередь, следует правильно выбрать один или несколько языков распознавания.
Скорость распознавания зависит как от сложности исходного документа, так и от свободных ресурсов компьютера. Задача распознавания требует проведения сложных вычислений (например, для распознавания одного только слова требуется совершить порядка 100 миллионов операций) Следовательно, чем больше свободных ресурсов сможет предоставить программе компьютер, тем скорее будет получен результат. Поэтому на время распознавания рекомендуется уменьшить количество программ, запускаемых одновременно с FineReader. Обратите внимание: PDF-файл может распознаваться несколько дольше, чем аналогичный отсканированный документ.

-
CuneiForm - бесплатный продукт, так же отличается надёжностью (Точность распознавания русского языка колеблется в пределах 96-97% и практически не зависит от цвета фона и размера шрифта), но значительно хуже работает с машинописными текстами. 
 
б) Загружаем в програму графические файлы, текст на которых нужно распознать
в) Нажимаем кнопку «Распознать»
г) Получаем на выходе текст для дальнейшей выверки и редактирования 
 
Стоит отметить, что распознавание написанного от руки текста - часто бывает необходимо, если оцифровывается книга или каталог с рукописными пометками, несущими определенную информацию — возможно в ABBYY FineReader при условии, что текст написан печатными буквами и с соблюдением полей.
 Для удобства приведем сравнительную таблицу форматов, в которые затем можно сохранить распознанные данные:
 

Формат

Назначение

Кроссплатформенность

Способ создания книги

Недостатки

PDF

формат пригоден для создания книг, буклетов и т. д. с высоким качеством изображений

да

виртуальный принтер (когда пользователь запускает печать документа на такой принтер, вместо вывода на бумагу или другой физический материал, программа определённым образом обрабатывает полученный поток графических команд, результат обработки обычно записывается в файл.)

слишком большой размер полученного файла

DJVU

открытый формат подходит для хранения сканов прессы и книг, где не требуется высокое качество изображений или где трудно распознать текст

да, при наличии специального ПО

Конвертер (создание книги путём конвертирования из исходного формата в данный)

не всегда высокое качество результата (в силу сильного сжатия файла -чем меньше размер файла тем хуже качество картинки)

DOC

подходит как для создания текста "с нуля", так и для размещения готовой информации (графической или текстовой)

Нет. Только Windows. Unix и JAVA (при наличии ПО (конвертер))

текстовый редактор MS Word

большой размер, не слишком удобный просмотр

RTF

отображает размеченную текстовую и графическую информацию (до 256 цветов)

да

текстовый редактор (Word, OpenOffice…)

не очень качественное отображение графики

HTML

язык гипертекстовой разметки, который подходит для отображения любого текста и графики

да

текстовый редактор или HTML-редактор

нужны навыки работы, небольшие возможности форматирования

FB2

основан на XML, служит для отображения любого текста или графики, легко создается из DJVU и HTML

да, при наличии ПО

специальное приложение или конвертер

не всегда корректное отображение некоторых символов и таблиц

EXE

формата компилируется на основе HTML и позволяет создавать книги с самым разнообразным контентом

нет, только Windows

специальное приложение-компилятор

поддержка формата только семейством Windows

CHM

чаще всего используется для создания файлов справки к программе, компилируется на основе HTML

да, для Windows, остальные — при наличии специального ПО

специальное приложение или конвертер

поддержка формата только семейством Windows

JAVA

используется для чтения книг на мобильных телефонах, КПК и т. п. устройствах

нет

конвертер

не всегда корректное отображение некоторых символов и изображений

 
Как видно из таблицы, создание любой книги вращается вокруг двух основных инструментов: текстовый редактор (для текстовых форматов) и конвертор (для форматов типа PDF, DJVU, JAVA и т.п.). Причём любой текстовый формат можно преобразовать в PDF стандартными средствами MS Word, или в другие форматы с помощью специальных программ, а вот обратные действия произвести уже сложнее, так как текст зачастую бывает защищён от копирования и редактирования, наложенным на него с помощь специальных программ паролем. 
   
Шаг 4 - Как скомпоновать электронную книгу?


Теперь у нас есть набор графических фалов или один текстовый фаил, которые нужно скомпоновать в электронную книгу, и для этого есть специальные программы. На данный момент в сети можно найти огромное количество различных программ выполняющих эти задачи. Все ниже перечисленные программы очень просты в применении, и отличаются только форматами, с которыми работают и вариантом распространения - платным или нет. Например, Natata eBook Compiler Gold служит для компиляции электронных книг и позволяет даже неопытному пользователю создать исполняемый exe-файл, являющийся электронной книгой, из документов в текстовом, графическом или аудио- формате. С полным списком можно ознакомиться в подробном обзоре программ для создания электронных книг (http://www.atiz.ru/ebook-creating-soft). 
            
Шаг 5 - Не нарушаем ли мы авторские права?
 
           
По существующим в большинстве стран законам, книги являются объектами одновременно авторского и имущественного права. Имущественное право — это право на распространение и продажу книги, а также право на любое копирование или даже бесплатное распространение через интернет. Автор книги имеет особые права, такие, как требовать признания авторства или заключать контракты с издателями. Если данная книга является объектом имущественного права, это означает, что её нельзя копировать или вообще как-либо распространять (даже бесплатно) без разрешения правообладателя.
 
          
  Законной является оцифровка книг, права на которые истекли, или книг, авторы и издатели которых разрешают их свободное распространение через интернет или другим образом (например, если автор выложил на интернет-странице электронную книгу после того, как издательство вернуло ему все имущественные права). Учтите, что законом запрещается оцифровывать или копировать (в том числе через бесплатные или платные интернет-сайты) электронные книги, являющиеся в настоящее время объектами имущественного права. Хранение таких электронных книг на вашем личном компьютере уже является копированием и также запрещено, за исключением того случая, если вы сами купили эту книгу у издательства в электронном виде. Даже если у вас есть купленный вами бумажный экземпляр какой-либо книги, защищенной имущественным правом, закон запрещает вам изготавливать оцифрованную версию этой книги или хранить на своём компьютере где-либо взятую оцифрованную версию, если только вы сами не купили электронную книгу у издательства, дополнительно к бумажному экземпляру.


С созданием и предоставлением электронных книг в библиотеке дело обстоит несколько иначе. Специальное правило ст. 1275 Гражданского кодекса позволяет библиотекам (не гражданам, а именно библиотекам - путем оказания соответствующих услуг) осуществлять копирование статей и частей книг ДЛЯ их читателей. Но есть и правило ст. 1274 Гражданского кодекса, которое запрещает создавать цифровые копии с произведений, выраженных в цифровой форме и предоставленных гражданину библиотекой, что запрещает читателю библиотеки создавать копию цифрового файла, но позволяет создать репродуцированную копию (на бумажном носителе) при соблюдении иных требований закона (однако практически это маловероятно без обращения к библиотеке); 
 
Оцифровка книг, а особенно массовая - дело непростое, недаром этими проектами занимаются такие гиганты, как Google (books.google.ru) или Библиотека конгресса США, сталкиваясь с рядом проблем и сложностей. Поэтому, если перед Вами стала задача оцифровать книжный массив, запаситесь огромной порцией терпения и времени на освоение нового вида деятельности. Желаем удачи!  
 

Comments

isheep
Jun. 16th, 2010 07:58 am (UTC)
По поводу PDF
Не совсем согласен по поводу размера и пригодности PDF: во-первых, забыт двухслойный PDF - сверху картинка а снизу "невидимый" текст, и (который лучше, чем дежавю - позволят проводить полнотекстовый поиск). Плюс по поводу размера PDF - вообще говоря, есть 3 формата PDF: не сжатый, сжатый и PDF/A, и этот пункт для них серьезно отличается. Кроме того, кроме ABBYY FineReader не упомянут ABBYY PDF Transformer, который незаменим во время приемки в электронную библиотеку диссертаций. Ну и OpenOffice, конечно..

Кроме "Обыкновенный планшетный сканер" существуют еще и профессиональные планшетники формата до А3, и методички и лабники ими сканировать (и другой дефицитный внутривуз) - гораздо проще и быстрее чем планетарниками..

Вообще давно хочу написать о практике создания электронных документов в вузе, но пока руки не доходят. Но скоро обязательно напишу здесь: http://rock-n-roll-v-biblioteke.blogspot.com/

Profile

elibconsult
ELIBCONSULT: создание электронной библиотеки
www.elibconsult.ru

Latest Month

April 2015
S M T W T F S
   1234
567891011
12131415161718
19202122232425
2627282930  

Tags

Powered by LiveJournal.com
Designed by Lilia Ahner