?

Log in

No account? Create an account

Previous Entry | Next Entry

 Последнее несколько лет на просторах всемирной паутины появляется всё большее количество интернет-библиотек и небольших сервисов, с которых бесплатно (что не всегда законно) или же платно можно скачать практически любую книгу, журнал или газету. Чтение электронных книг стало для многих естественным, поэтому не удивительно, что сканирование книг набирает обороты и в библиотечном секторе. Многие библиотеки отдают оцифровку своих фондов сторонним компаниям, однако есть и те, кто приобретает книжный сканер и занимается этим самостоятельно. Давайте разберемся, насколько это легко и какие сложности могут встретиться на пути сканировщика книг. 

Первый вопрос, который приходит в голову - с чего начать?

 Шаг 1. Какую книгу создаем?

Хотим ли мы создать свою книгу или же только электронную копию уже существующей бумажной книги (наш случай)?

Шаг 2. Какой сканер выбрать?

Здесь возникают первые сложности, поскольку выбор - широк, а возможности - зачастую ограничены как денежными средствами, так и пространством для установки сканера.

Обыкновенный планшетный сканер - доступен (от 100$), есть практически в каждом доме. Сканировать одну-две книги уже проблематично, а оцифровывать им огромный библиотечный массив - просто мучение: каждый раз снова и снова поднимать крышку сканера, перелистывать страницу и закрывать крышку; а так как сканер рассчитан на сканирование расшитых документов и, как правило, не превышающих формат А4, появляется целый ряд проблем с книгами большего формата, а также с искажениями и затемнениями вблизи корешка.


 Планетарный сканер - пожалуй, самый затратный вариант. Здесь, в силу того, что сканирующая головка расположена сверху и на значительном удалении от сканируемого документа, затемнений не будет, да и скорость намного выше. Основной проблемой считается большое количество искажений. Их количество минимизируется, но не устраняется полностью за счет прижимного стекла, используемого в некоторых моделях. Существует и возможность повредить корешок книги (особенно если речь идет о ветхом издании), так как она должна быть развёрнута на 180 градусов.


 Книжный сканер на основе ЦФК (цифровых фотокамер), выглядящий достаточно экзотично, стоит на порядок меньше планетарного. Книга закреплена в колыбели и раскрыта на 90 градусов, что полностью исключает повреждение корешка, камеры закреплены над книгой, объективы направлены каждый на одну из страниц книги, благодаря чему сканирование происходит без искажений. Плюсом является равномерность освещения книги и скорость сканирования (листаем страницу, снимаем, и снова листаем). Единственный недостаток, так называемый эффект  «Margin crawl», обусловленный толщиной бумаги издания, заставляет изображения по мере сканирования немного продвигаться по горизонтали. Он устраняется изменением настроек кадрирования каждые 100-200 страниц при пост-обработке изображений менять настройки кадрирования.

Можно попробовать «отснять» книгу вручную, но качество этой самодеятельности, особенности учитывая отсутствия навыков, будет очень сомнительным.

 Итак, мы выбрали книгу, оцифровали ее и теперь у нас есть набор изображений, чаще всего - в формате JPG. 
 
Шаг 3. Каков должен быть формат книги? 

На этом этапе необходимо принять решение - хотим ли мы оставить книгу в виде изображений - наиболее легкий пусть, или создать файл книги в текстовом формате (DOC, RTF, TXT) с возможностью редактирования. 
Электронные книги, книги в электронном виде, создание электронных книг, электронные версии книг, книги электронный вариант, электронная книга ebook, электронные книги e book, устройства электронные книги, устройства чтения электронных книг, книги электронном виде, программа электронных книг,  создание электронных книг, электронные книги кпк, формат электронных книг, книга телефон, книги электронный вариант, программа чтения электронных книг, электронная книга история книги, программа создание электронных книг, txt book электронная книга

Если книгу надо создать в текстовом формате, не обойтись без программ для распознавания текста, таких как ABBYY FineReader или его бесплатный аналог CuneiForm. Но нужно учесть, что точность распознавания в современных программах хоть и высока, но не идеальна, и тем меньше (точность распознавания), чем хуже качество картинки так что придётся после распознавания проверять весь полученный текст.

 Процесс распознавания текста организован достаточно просто.

а) Выбираем программу для распознавания текста:

 ABBYY FineReader - наиболее популярная программа с множеством функций, имеет высокую надёжность (1-2 ошибки на страницу при хорошем качестве картинки (с разрешением 300 dpi, в сером или цветном режиме)). Стоимость программы составляет около 10000 р., в зависимости от количества лицензий и версии Corporate Edition (с поддержкой сетевых возможностей и без нее). Согласно официальному сайту программы (http://www.abbyy.ru), качество распознавания зависит от сложности исходного документа, правильности определения блоков, а также от настроек программы. Если оформление документа сложное, следует внимательно проверить, и, возможно, подкорректировать границы блоков, чтобы в обрабатываемую область попали все нужные символы. Большое влияние на качество распознавания оказывает режим, в котором был отсканирован исходный документ. Рекомендуется сканировать с разрешением 300 dpi, в сером или цветном режиме, в зависимости от того, нужно ли сохранить цвет в итоговом документе. Если сканирование ведётся с меньшим разрешением, системе может не хватить информации для правильного распознавания символов. Если в тексте встречаются специальные термины, программа может «не узнать» их. Тогда для повышения качества распознавания нужно будет добавить эти термины в словарь. Изменение настроек программы (Сервис/Опции/Распознавание) также может помочь повысить качество. В первую очередь, следует правильно выбрать один или несколько языков распознавания.
Скорость распознавания зависит как от сложности исходного документа, так и от свободных ресурсов компьютера. Задача распознавания требует проведения сложных вычислений (например, для распознавания одного только слова требуется совершить порядка 100 миллионов операций) Следовательно, чем больше свободных ресурсов сможет предоставить программе компьютер, тем скорее будет получен результат. Поэтому на время распознавания рекомендуется уменьшить количество программ, запускаемых одновременно с FineReader. Обратите внимание: PDF-файл может распознаваться несколько дольше, чем аналогичный отсканированный документ.

-
CuneiForm - бесплатный продукт, так же отличается надёжностью (Точность распознавания русского языка колеблется в пределах 96-97% и практически не зависит от цвета фона и размера шрифта), но значительно хуже работает с машинописными текстами. 
 
б) Загружаем в програму графические файлы, текст на которых нужно распознать
в) Нажимаем кнопку «Распознать»
г) Получаем на выходе текст для дальнейшей выверки и редактирования 
 
Стоит отметить, что распознавание написанного от руки текста - часто бывает необходимо, если оцифровывается книга или каталог с рукописными пометками, несущими определенную информацию — возможно в ABBYY FineReader при условии, что текст написан печатными буквами и с соблюдением полей.
 Для удобства приведем сравнительную таблицу форматов, в которые затем можно сохранить распознанные данные:
 

Формат

Назначение

Кроссплатформенность

Способ создания книги

Недостатки

PDF

формат пригоден для создания книг, буклетов и т. д. с высоким качеством изображений

да

виртуальный принтер (когда пользователь запускает печать документа на такой принтер, вместо вывода на бумагу или другой физический материал, программа определённым образом обрабатывает полученный поток графических команд, результат обработки обычно записывается в файл.)

слишком большой размер полученного файла

DJVU

открытый формат подходит для хранения сканов прессы и книг, где не требуется высокое качество изображений или где трудно распознать текст

да, при наличии специального ПО

Конвертер (создание книги путём конвертирования из исходного формата в данный)

не всегда высокое качество результата (в силу сильного сжатия файла -чем меньше размер файла тем хуже качество картинки)

DOC

подходит как для создания текста "с нуля", так и для размещения готовой информации (графической или текстовой)

Нет. Только Windows. Unix и JAVA (при наличии ПО (конвертер))

текстовый редактор MS Word

большой размер, не слишком удобный просмотр

RTF

отображает размеченную текстовую и графическую информацию (до 256 цветов)

да

текстовый редактор (Word, OpenOffice…)

не очень качественное отображение графики

HTML

язык гипертекстовой разметки, который подходит для отображения любого текста и графики

да

текстовый редактор или HTML-редактор

нужны навыки работы, небольшие возможности форматирования

FB2

основан на XML, служит для отображения любого текста или графики, легко создается из DJVU и HTML

да, при наличии ПО

специальное приложение или конвертер

не всегда корректное отображение некоторых символов и таблиц

EXE

формата компилируется на основе HTML и позволяет создавать книги с самым разнообразным контентом

нет, только Windows

специальное приложение-компилятор

поддержка формата только семейством Windows

CHM

чаще всего используется для создания файлов справки к программе, компилируется на основе HTML

да, для Windows, остальные — при наличии специального ПО

специальное приложение или конвертер

поддержка формата только семейством Windows

JAVA

используется для чтения книг на мобильных телефонах, КПК и т. п. устройствах

нет

конвертер

не всегда корректное отображение некоторых символов и изображений

 
Как видно из таблицы, создание любой книги вращается вокруг двух основных инструментов: текстовый редактор (для текстовых форматов) и конвертор (для форматов типа PDF, DJVU, JAVA и т.п.). Причём любой текстовый формат можно преобразовать в PDF стандартными средствами MS Word, или в другие форматы с помощью специальных программ, а вот обратные действия произвести уже сложнее, так как текст зачастую бывает защищён от копирования и редактирования, наложенным на него с помощь специальных программ паролем. 
   
Шаг 4 - Как скомпоновать электронную книгу?


Теперь у нас есть набор графических фалов или один текстовый фаил, которые нужно скомпоновать в электронную книгу, и для этого есть специальные программы. На данный момент в сети можно найти огромное количество различных программ выполняющих эти задачи. Все ниже перечисленные программы очень просты в применении, и отличаются только форматами, с которыми работают и вариантом распространения - платным или нет. Например, Natata eBook Compiler Gold служит для компиляции электронных книг и позволяет даже неопытному пользователю создать исполняемый exe-файл, являющийся электронной книгой, из документов в текстовом, графическом или аудио- формате. С полным списком можно ознакомиться в подробном обзоре программ для создания электронных книг (http://www.atiz.ru/ebook-creating-soft). 
            
Шаг 5 - Не нарушаем ли мы авторские права?
 
           
По существующим в большинстве стран законам, книги являются объектами одновременно авторского и имущественного права. Имущественное право — это право на распространение и продажу книги, а также право на любое копирование или даже бесплатное распространение через интернет. Автор книги имеет особые права, такие, как требовать признания авторства или заключать контракты с издателями. Если данная книга является объектом имущественного права, это означает, что её нельзя копировать или вообще как-либо распространять (даже бесплатно) без разрешения правообладателя.
 
          
  Законной является оцифровка книг, права на которые истекли, или книг, авторы и издатели которых разрешают их свободное распространение через интернет или другим образом (например, если автор выложил на интернет-странице электронную книгу после того, как издательство вернуло ему все имущественные права). Учтите, что законом запрещается оцифровывать или копировать (в том числе через бесплатные или платные интернет-сайты) электронные книги, являющиеся в настоящее время объектами имущественного права. Хранение таких электронных книг на вашем личном компьютере уже является копированием и также запрещено, за исключением того случая, если вы сами купили эту книгу у издательства в электронном виде. Даже если у вас есть купленный вами бумажный экземпляр какой-либо книги, защищенной имущественным правом, закон запрещает вам изготавливать оцифрованную версию этой книги или хранить на своём компьютере где-либо взятую оцифрованную версию, если только вы сами не купили электронную книгу у издательства, дополнительно к бумажному экземпляру.


С созданием и предоставлением электронных книг в библиотеке дело обстоит несколько иначе. Специальное правило ст. 1275 Гражданского кодекса позволяет библиотекам (не гражданам, а именно библиотекам - путем оказания соответствующих услуг) осуществлять копирование статей и частей книг ДЛЯ их читателей. Но есть и правило ст. 1274 Гражданского кодекса, которое запрещает создавать цифровые копии с произведений, выраженных в цифровой форме и предоставленных гражданину библиотекой, что запрещает читателю библиотеки создавать копию цифрового файла, но позволяет создать репродуцированную копию (на бумажном носителе) при соблюдении иных требований закона (однако практически это маловероятно без обращения к библиотеке); 
 
Оцифровка книг, а особенно массовая - дело непростое, недаром этими проектами занимаются такие гиганты, как Google (books.google.ru) или Библиотека конгресса США, сталкиваясь с рядом проблем и сложностей. Поэтому, если перед Вами стала задача оцифровать книжный массив, запаситесь огромной порцией терпения и времени на освоение нового вида деятельности. Желаем удачи!  
 

Comments

( 17 comments — Leave a comment )
m_horn_gin
Jun. 4th, 2010 04:04 pm (UTC)
добавлю пару слов про сканеры: из бюджетных вариантов есть очень хорошие - а именно, книжные сканеры Plustek
скорость сканирования страницы A4 на сканере Plustek 4600 (стоит чуть меньше 30 т.р.) в цвете с разрешением 300 dpi - 2-3 секунды, на втрое более дешевом Plustek 3600 - 5-6 секунд
фактически, это особая категория сканеров между дорогущими профессиональными сканерами стоимостью в пол-миллиона и обычными сканерами, нацеленными в первую очередь на сканирование фотографий, а не книг
staskin1
Jun. 7th, 2010 07:28 pm (UTC)
Специальные книжные планшетные сканеры
Планшетные сканеры приспособленные для постраничного сканирования книг конечно же значительно доступнее планетарных сканеров при высоком качестве сканирования. Кроме Plustek есть еще и Avision http://www.docscan.ru/micro.asp?overview_id=98158

Для книг хорошего качества (крепкий корешок, целые листы, не особо толстая) работать с таким сканером - никаких проблем. С ветхим фондом будут проблемы. Хотя я в свое время предлагал другой вариант, класть книгу открытой вверх, желательно не какую-нить V-образную колыбель в 120 градусов как у сканера ATIZ, с планшетника снять крышку и прикладывать сверху. Кроме того для удобства планшетник можно на что-нить пружинное подвесить. Надо идею запатентовать :-)

В конечном итоге какой сканер приобретать выбор каждой библиотеки.
m_horn_gin
Jun. 7th, 2010 07:42 pm (UTC)
Re: Специальные книжные планшетные сканеры
спасибо за ссылку - я раньше про такой сканер не слышал
moderator_fly
Jun. 5th, 2010 03:44 pm (UTC)
А книги для мобильных? Не хотите написать об этом в наше сообщество ? У нас там сейчас как раз розыгрыш мобильных, было бы интересно.
vitaly_agapeev
Jun. 5th, 2010 07:37 pm (UTC)
Спасибо за предложение) Интересная тема. Как буду готов- напишу.
mozgotron
Jun. 5th, 2010 06:05 pm (UTC)
Однако! Я вот как раз принёс из библиотеки одну интересную дарственную книжку 1975 года издания, которую хочу оцифровать (при помощи планшетника и ФайнРидера) и выложить в Сеть в формате HTML. Так что беру данную статью на вооружение.
vitaly_agapeev
Jun. 5th, 2010 07:44 pm (UTC)
Рад помочь!) у меня самого так руки и не доходят оцифровать собственные ветхие раритеты. Может летом как раз займусь.
nik_melnikov
Jun. 7th, 2010 07:54 am (UTC)
Хорошая статья! еще бы сканером соответствующим обзавестись и можно собственные коллекции создавать.
maria_polozova
Jun. 7th, 2010 07:49 am (UTC)
Поделитесь потом, как получилось:)
mozgotron
Jun. 7th, 2010 07:47 pm (UTC)
Да, если доведу дело до конца, дам ссылочку на веб-публикацию оцифрованной книги. Только не гарантирую, что ссылка будет именно в этом сообществе.
А пока даже не буду раскрывать, что это за книга и о чём. Просто уверен, что многие медицинские работники с удовольствием растащили бы её на свои компьютеры — до того хорошо написана и проиллюстрирована.
maria_polozova
Jun. 8th, 2010 08:28 am (UTC)
Окей, будем ждать. А в нашем сообществе, если не сложно, расскажите, как проходил сам процесс оцифровки, чем пользовались и какие проблемы возникали, если конечно они будут иметь место :)
mozgotron
Jun. 8th, 2010 06:11 pm (UTC)
Вот это можно. Только не скоро — в книге 139 разворотов, 151 рисунок и 18 таблиц.
svetucik
Jun. 7th, 2010 09:31 pm (UTC)
Пустые бредни и реклама atiz.
staskin1
Jun. 8th, 2010 08:25 am (UTC)
Пустые бредни и реклама atiz.
Коллеги, svetucik права. Срочно меняем все пустые бредни данного поста на полные, а вместо слова "atiz" пишем то, что написано на юзерпике у svetucikа.
maria_polozova
Jun. 8th, 2010 08:30 am (UTC)
А чего вы не придрались к открывающему дискуссию комментарию m_horn_gin? Вдруг, о ужас, это реклама сканеров Plustek?
tmalkova
Jun. 8th, 2010 08:44 am (UTC)
Совершенно не согласна по поводу "пустых бредней"! На мой взгляд познавательный, полезный пост.
Кстати говоря, вот еще одна полезная программка для создания электронных книг: http://dwg.ru/dnl/1850
Называется Scan kromsator. Позволяет производить обрезку и выравнивание сырых сканов таким образом, чтобы получились ровные страницы книжного текста, с равномерными полями по бокам. Кроме того, программа умеет обрезать "мусор" (неизбежно образующийся при сканировании), устранять перекос страниц, и делать многие другие аналогичные задачи. Так же позволяет переводить отсканированный материал в нужный формат.
isheep
Jun. 16th, 2010 07:58 am (UTC)
По поводу PDF
Не совсем согласен по поводу размера и пригодности PDF: во-первых, забыт двухслойный PDF - сверху картинка а снизу "невидимый" текст, и (который лучше, чем дежавю - позволят проводить полнотекстовый поиск). Плюс по поводу размера PDF - вообще говоря, есть 3 формата PDF: не сжатый, сжатый и PDF/A, и этот пункт для них серьезно отличается. Кроме того, кроме ABBYY FineReader не упомянут ABBYY PDF Transformer, который незаменим во время приемки в электронную библиотеку диссертаций. Ну и OpenOffice, конечно..

Кроме "Обыкновенный планшетный сканер" существуют еще и профессиональные планшетники формата до А3, и методички и лабники ими сканировать (и другой дефицитный внутривуз) - гораздо проще и быстрее чем планетарниками..

Вообще давно хочу написать о практике создания электронных документов в вузе, но пока руки не доходят. Но скоро обязательно напишу здесь: http://rock-n-roll-v-biblioteke.blogspot.com/
( 17 comments — Leave a comment )

Profile

elibconsult
ELIBCONSULT: создание электронной библиотеки
www.elibconsult.ru

Latest Month

April 2015
S M T W T F S
   1234
567891011
12131415161718
19202122232425
2627282930  

Tags

Powered by LiveJournal.com
Designed by Lilia Ahner