АВЕНТЮРА VII
СКАЗ О ЗАХРЕБЕТНИКАХ, СОСТАВЛЯЮЩИХ ГОСТы
1. Форма представления выходных данных сканируемой книги или статьи
Здесь позволю себе отступление, ибо вопрос весьма познавателен в смысле идиотизма.
Я начал иметь дело со стандартами представления ссылок в русскоязычных и зарубежных журналах где-то с середины 1970-х гг. Были соответствующие ГОСТы, которые требовалось
соблюдать столь жестко, как будто за ошибки могли кастрировать. Как будто главным в статье являлась форма представления ссылок (впрочем, и поныне так). Далее мы будем
рассматривать ГОСТы русскоязычных изданий на примере ГОСТа для отчетов и диссертаций.
Сначала требовались Ф.И.О. авторов, название статьи, год, номер тома и страницы. Ф.И.О., названия статьи и журнала разделяли точка (в англоязычных - запятая), а остальное -
запятые (Ридеров Ф.Н. Сканирование. Журнал, 1974, 35, стр. 456-457.). Затем решили, что так нелогично и ввели сокращение «т» (том), а «стр.», напротив, сократили до «с.». Стало
так (Ридеров Ф.Н. Сканирование. Журнал, 1974, т. 35, с. 456-457.). Потом решили жизнь еще подсластить: вот, дескать, не смoтрите первоисточники, а ссылаетесь. Вот мы вам
подложим: давай еще и номер! Стало так: (Ридеров Ф.Н. Сканирование. Журнал, 1974, т. 35, № 3, с. 456-457.). Следует отметить, что в научных (отечественных и зарубежных) журналах
нумерация страниц сплошная по всем номерам, так что номера-то и не нужны для поиска. Кроме украинских (решили выпендриться; так до сих пор), медицинских и типа «Семья и школа».
Но: в медицинских журналах, как правило, отсутствуют тома, поэтому № ты и раньше бы поставил (иначе бессмысленна ссылка). Ладно, «улучшили» жизнь, понимаешь.
Показалось мало: прошло лет восемь, изменили ГОСТ: теперь надо было все писать через точки, вот так (Ридеров Ф.Н. Сканирование. Журнал. 1974. Т. 35. № 3. С. 456-457.). Можно
видеть, что жизнь еще «улучшилась»: теперь пришлось при напечатании Т. и С. переходить на верхний регистр, что, конечно, не облегчало работу. Но и этого захребетникам показалось
мало - решили, что жизнь все еще слишком течет млеком и мёдом. Казалось бы, что придумать еще? Однако нет предела изобретательности: велено было по ГОСТу ставить // между
названием статьи и названием журнала (для книг по-другому: см. ниже, хотя и в ссылках на книгу некоторые журналы требуют ставить //). Точка же там исчезла. Получилось так
(Ридеров Ф.Н. Сканирование // Журнал. 1974. Т. 35. № 3. С. 456-457.).
Этот ГОСТ продержался лет пятнадцать: никак не могли придумать, чем бы нагадить еще. Наконец осенило: давай еще прибавим пару-тройку тире! Вот попрыгают, вставляя их! Стало так:
(Ридеров Ф.Н. Сканирование // Журнал. - 1974. - Т. 35. - № 3. - С. 456-457.). И тут гадов застопорило. Пока что более ничего не предложили, но работают над вопросом в поте лица:
в 2002 г. ввели новый ГОСТ для отчетов, совсем уж бредовый (форма представления заголовком для таблиц и подписей к рисункам такова, что содрогнулись бы и папуасы).
Из научных журналов сейчас указанные выше тире используют только некоторые украинские. Но попробуй не вставить тире в «Список литературы» какого-нибудь отчета или диссертации:
обязательно кто-нибудь с серьезным видом сделает замечание: «Не по ГОСТу, де».
Большинство же научных журналов остались верны предыдущему ГОСТу: (Ридеров Ф.Н. Сканирование // Журнал. 1974. Т. 35. № 3. С. 456-457.). Но - что ни журнал, так желает
отличиться: в одном курсивом набраны Ф.И.О. авторов, а в другом - название журнала. Некоторые не пишут «т.», зато набирают его номер жирным шрифтом. В большинстве изданий можно,
если авторов более 4-х, дать первые три фамилии, а потом написать «и др.» или "et al.", однако некоторые академические журналы не согласны: желают показать «Вот мы какие!» Они
требуют всех авторов, будь их хоть на полстраницы (более сорока я видел сам).
Сейчас, смотрю, в некоторых журналах почему-то после названия издательства книги, но перед годом издания, заменили точку на запятую. Нелогично у них получилось: всюду там точки,
и зачем-то одинокая запятая, причем перед годом.
Ситуация с представлением ссылок в разных научных журналах напоминает описание безымянным францисканским монахом XIII века народов, живущих в Африке:
«Что ни область, то люди в ней разные: есть там горцы, ростом в два локтя, и они вечно воюют с журавлями. Рожают они на третьем году, а старятся на восьмом: А в другой
области живут макробии, и ростом они в двенадцать локтей, и промышляют они охотой на грифонов, а у тех грифонов туловище, как у льва, крылья же и когти орлиные: И есть люди, у
которых женщины рожают щенят: и народ, в котором все безголовы; глаза у этих созданий на уровне плеч, чуть пожалуй, пониже, а вместо ноздрей и ушей в груди по две дыры».
Как у францисканского монаха были люди чуть ли не с глазами на заднице, так и в научных журналах можно ожидать применительно к ссылкам любых чудес.
Однако более или менее единая форма, повторяю, все-таки есть, хотя она едина и не для всех. Мне же она, как и большинству журналов, наиболее привычна. Это предпоследний ГОСТ для
отчетов и диссертаций. Никаким курсивом авторов набирать не следует: при разрешении экрана 800х600 иной раз смотрится плохо, да и нечего утруждаться.
Вот как представляй сканируемую статью в журнале:
Ридеров Ф.Н. Сканирование // Журнал. 1974. Т. 35. № 3. С. 456-457.
Когда четыре автора, то все:
Нап Р., Ример К., Скот Н., Инов К. Идиотизм в ГОСТах // Бюлл. оформл. 2003. Т. 35. № 3. С 54-56.
Когда пять авторов и более:
Нап Р., Ример К., Скот Н. и др. Идиотизм в ГОСТах // Бюлл. оформл. 2003. Т. 35. № 3. С 54-56.
Понятно, что в англоязычных не «и др.», а "et al".
Сканируемая книга (выходные данные ее ты обязан привести; если не очень старая, то их можно списать с первой страницы либо с последней. Там их приводит издательство):
Брех К. О сканировании / Пер. с англ. Б.Л. Петров, К.П. Слюсарев. Под ред. Ч.П. Хренова. М.: Компьютер. 2002. - 456 с.
Что такое (М.:, Л.: Новосибирск: М. - Л.:)? Это города, где издано. Они так пишутся.
"Компьютер" же - издательство. Может быть так М.: Изд-во OCR.
Ранее писали так: М., Компьютер.
Но уже лет двадцать именно так: М.: Компьютер. (с двоеточием после города).
Словом, если списываешь выходные данные со сканируемой книги, то поправь их по-современному (заметь, что я в вышеприведенных примерах всюду расставил где надо неразрывные
пробелы - об этом ниже: авентюра VIII).
Понятно, что если ты сканируешь большущий «Список литературы» или «Примечания» какой-то старой книги, то мучиться, переправляя используемый тогда старый ГОСТ на новый не
следует. Не следует стараться вставлять в объемный оригинальный «Список литературы» неразрывные пробелы после инициалов, т., №, с. и т.д. Не будем делать культа (пусть, кроме
того, служит памятником ГОСТов). Просто проверь точность OCR. Часто там вместо английской малой «l» ставятся единицы «1», вместо тройки - «З» (зэ). Выдели список, включи поиск
на единицу «1» и осмотри английский текст. Так же поступи и с «зэ».
Выходные же данные самой сканируемой книги можно легко сделать по ГОСТу (который, кстати, типографии соблюдают не всегда. Но это тебе не оправдание).
Скажут, что я слишком придал внимание второстепенной ерунде. Не думаю. Все-таки более или менее единые правила есть, выполнить их легко, а электронные версии в сети можно
сделать окончательными. Так пусть они будут единообразно оформлены.
Когда выходных данных в книге нет (старая или в типографии неучи), то сделай их сам по представленной выше форме. Если изд-во какое-нибудь «ООО Хрен-плюс» или там «ООП
Хрен-минус», то так и пиши:
М.: ООП «Хрен-минус».
Иногда изд-во в книге не указано (хитрые современные перепечатки). Что ж, тогда только так: М. 2002. - 234 с.
ЗАПОМНИ, ДРУГ: если книга переводная, то обязательно укажи переводчика, и, если есть в книге (обычно где-нибудь в самом-самом начале), выходные данные и год издания оригинала на
языке оригинала. Вот мой пример:
Мишель Турнье
ПЯТНИЦА, ИЛИ ТИХООКЕАНСКИЙ ЛИМБ
Michel Tournier
VENDREDI OU LES LIMBES DU PACIFIQUE
Paris. 1967
Турнье М. Пятница, или Тихоокеанский лимб: Роман / Предисл. Н. Ржевской. Пер. с франц. И. Волевич. М.: Радуга. 1992. - 304 с.
Тираж 100.000
Тираж указывать полезно, поскольку - познавательно. Я же указываю еще и цены в советское время, чтобы вы, современные друзья, видели, какие копейки что стоило. А то сейчас
вам все врут непрерывно. Впрочем, мозги уже закомпостированы, и вряд ли что поможет...
2. Форма представления номеров ссылок в тексте
В научных изданиях России почти всюду это нормальные цифры в квадратных скобках [1, 2, 3], [1-6]. В зарубежных журналах и в русскоязычных научно-популярных книгах выпендриваются
(правда, за рубежом далеко не всегда), делая верхние символы1,2.
По всем же российским ГОСТам издревле было просто [1, 3, 7] (с пробелами между значениями). Никогда не видел так [1], [2], [3], как мне встретилось в электронной версии одной
книги.
Советую не мучиться с верхними символами. Ставь ссылки в тексте по нашему ГОСТу, и это будет наиболее правильно. И наиболее зримо. И сбоев будет меньше.
3. Порядок нумерации ссылок
По всем ГОСТам всегда была сплошная нумерация по всему тексту. Я часто вижу, как в гуманитарных трудах (история, философия) дается отдельная нумерация по главам. Может, там это
и целесообразно: ссылаются на места в тексте (а не на факты), дают полные цитаты. Понятно, что при сплошной нумерации некоторые ссылки могли бы повторяться (на одной и той же
странице, скажем, несколько цитат - получается несколько одинаковых ссылок - на одну и ту же страницу). Если так, оставляй оригинальную нумерацию ссылок труда отдельными
списками по главам. Но часто подобный подход авторами исходных трудов используется неоправданно (ссылки явно не повторяются). Тогда можешь заменить их изощрения на сплошную
нумерацию по тексту. Но - только если уверен, что прав.
АВЕНТЮРА VIII
ПЛАЧ ПО НЕРАЗРЫВНОМУ ПРОБЕЛУ
Типографские и интернетовские верстальщики и браузеристы горячо, с надрывом и слезой (см. соответствующие сайты) рекомендуют ставить неразрывный пробел (клавиши
Shift+Ctrl+пробел), т.е. , в целом ряде текстовых конструкций. Приведем их и обсудим целесообразность применительно к нашей специфике.
Неразрывный пробел, говорят названные личности, совершенно необходимо (иначе вы - «халявщики», как указано одним браузеристом) ставить вот где:
1. Слева от длинного тире
Это мы рассмотрели выше. Так и быть, будем ставить всегда, а тексты без него сделаем с ним, чего бы нам это ни стоило (см. Авентюру IV).
2. Для разрядки больших чисел
Типа 234 000 000. Тогда, дескать, и число лучше видно, и фрагмент его (000) при переформатировании документа не переползет на другую строку, отделившись от остальной части.
Но этого, по моему мнению, нам делать не следует по двум причинам:
а) Представим себе, что кто-то захочет перевести электронную версию из *.doc в *.txt. Винчестер у него малый, вирусов боится или в других программах любит читать. Тогда
немедленно неразрывный пробел превратится в простой и число, действительно, может оказаться разорванным.
б) С текстами в Word, как я указал в самом начале, следует работать обязательно в режиме включенных непечатаемых символов. Писать без этого нельзя, но, тогда, и читать иначе
нельзя - отвыкнешь от символов. А теперь погляди на большое число в подобном режиме: 234 000 000. Одни градусы какие-то. Ясно, что неудобоваримо.
Но и так: 234000000 тоже плохо, ибо приходится подсчитывать разряды. Т.е., их все-таки необходимо разделять. Запятой нельзя - не очень понятно, да и на англичан с американцами
смахивает. Поэтому предлагаю поступать, как поступали ранее у нас и поступают во Франции (почему-то теперь все позабыли). Будем отделять разряды точкой. Все видно, а фрагмент
числа никак не переползет на другую строку при переформатировании. Итак, пусть будет:
234.000.000.
3. В сокращениях т.е., т.к., и т.д., и т.п.
Некоторые типографщики с пеной у рта требуют разделять пробелом следующие сокращения: т.е., т.к., и т.д., и т.п. При этом они указывают, что часть подобных конструкций ни в коем
случае не должна переползать на другую строку, вот так: и т.
д. В результате требуется вставлять неразрывный пробел, вот так: и т. д. Причем у браузеристов имеется какой-то неразрывный пробел меньшей протяженности (у нас в Word'е его
нет). Вот из их писаний: «При наборе... лучше использовать русский стиль, когда дробная часть отделяется от целой запятой и между группами цифр рекомендуется вставлять
неразрывные полукегельные пробелы».
Другие, не менее маститые мастера типографских наук отмечают, что т.е., т.к., т.д., т.п. обычно разделяют пробелом, однако в справочниках и энциклопедиях, де, так не делают,
чтобы сократить объем.
Наконец третьи прямо говорят, что допускается писать т.к. и другие приведенные конструкции без пробелов, и что они сами делают именно подобным образом.
Сам я видел в разных книгах, действительно, и так, и так. Но нам писать с пробелами не годится, снова, по тем же двум причинам. См. выше подпункт 1 а). Посмотри также на вид в
Word'e т. к., и т. д., и т. п. Снова градусы, причем тут присутствует даже указатель температуры (правда, со строчной буквы) - т.
Это не годится, не годится... Будем писать их без пробелов, как и специалисты третьего приведенного выше течения в русле типографских наук.
Но если ты сканировал текст, где не так, а так: т. к., т. е., и т. д., и т. п. Исправь. Легко сделать: во всем документе «Найти» (т. к.) - «Заменить» (т.к.) и аналогично
остальное. Секундное дело, понимаешь...
4. При разделении букв от цифр
Вот типографщики:
«Не отбиваются от относящихся к ним чисел знаки процента, промилле, градуса, часов, минут и секунд. Однако в выражениях типа 36 _С полукегельный пробел ставится между числом и
знаком градуса, который от буквы не отбивается. На полукегельную же отбиваются от чисел знаки параграфа и номера. Во всех этих случаях принесет пользу и облегчит судьбу
корректора применение неразрывного пробела. Как и при отбивке чисел от единиц измерения. На полукегельный пробел рекомендуется отбивать от слов знаки сноски - как в тексте, так
и непосредственно в самой сноске. Исключение составляет случай, когда знак сноски стоит в конце предложения - за точкой. Тогда он не отбивается».
Что можем сказать? Нет у нас полукегельного пробела, поэтому мы градусы «отбивать» не будем (и вообще, никого ни у кого отбивать не будем). А нашим неразрывным пробелом тут
пользоваться нельзя. Вот, например, такое: 36 _C. Нравится вам это? Мне - нет. Первый кружок - символ неразрывного пробела, а второй _- символ градусов из таблицы символов.
Да и опять же, если кто, с пробелом, да в *.txt: Наплачется он тогда о градусах с дырой между цифрой.
Странно видеть также и 3ч и 3 ч, 3мин и 3 мин. Тут придется оставить все как раньше: 3 ч и 3 мин. Конечно, кто-то может не согласиться со мной и пойдет в охвостье типографщиков
и браузеристов. Что ж, это относительная мелочь, текст хуже не станет.
Про проценты же мы согласны и с браузеристами: пусть остается 4%, хотя Word и подчеркивает.
А насчет полукегельного либо нашего неразрывного пробела между текстом и номером сноски - он не нужен там. Ведь в известных мне академических изданиях «Литературные памятники»
ссылки или сноски таковы1. Т.е., знак сноски в конце предложения стоит перед точкой. Наверное, так надо и для сносок. Иначе, действительно, режет глаз (как будто сноска
относится к точке). Так что сноски к неразрывным пробелам не относятся.
Рекомендую, правда, вставлять неразрывный пробел в конструкциях следующих типов: 1, п. 1 (это пункт 1), п. а) (это пункт а)), № 1, # 1, 1 м (один метр), 1 кг, до н. э. г. Москва
и что-то вроде Статья 1. Тогда они не разорвутся случайно по двум строкам.
Также и при указании номеров глав и стихов Библии при цитировании по протестантскому образцу (как я делаю) следует вставлять после двоеточия неразрывный пробел, вот так: 23:
6-7.
После указания цифрами года и перед г. или гг. (типа 1957 г. или 1960-1970 гг.) неразрывный пробел ставить не будем (да об этом не говорят и сами типографщики). Иначе для
древних римлян получатся градусы: 26 г.
Правда, иногда неразрывный пробел с левой стороны длинного тире примыкает к какому-нибудь близлежащему числу, например: «комната 27 - врач-терапевт». Тут уж ничего не сделаешь.
Пусть так и будет, иначе придется дифференцировать длинные тире на предмет расстановки слева от них неразрывного пробела. Этого, конечно, делать не следует.
Раньше мы всюду, где я указал, ставили просто пробел (без него как-то совсем плохо). Поэтому даже если кто переведет *.doc в *.txt, ему что в лоб, что по лбу (что неразрывный,
что обычный пробел превратятся просто в пробел).
Вот так и будем действовать.
АВЕНТЮРА IX
ФОРМУЛЫ И ПРОЧАЯ МАТЕМАТИКА
Полиграфисты-интернетчики строго требуют не разделять знаки в формулах пробелом, и делать вот так: 2+3=5. Как видишь, друг, подобного обращения не выдерживает даже Word: смотри,
он подчеркнул красным. А вот тут: 2 + 3 = 5 не подчеркнул. Все мы со школы помним, как разрывали по строкам длинные формулы, однако там арифметический знак дублировался на обеих
строках (в конце одной и начале другой). Здесь мы этого делать не можем, только если насильственно. Но если потом переформатируешь, то можешь получить в строке два знака ++ или,
там, = =.
Без пробелов же формула трудна для восприятия (глянь сам). Об этом сокрушаются и сами браузеристы, хотя и настаивают на своем. Об этом же указывает и Word. Словом, кто как
хочет, но я буду по-старинке: разрывать формулы пробелами, как указано выше (слава Богу, почти не встречаются в сканируемых мною «для души» текстах).
А вот в конструкции типа «разрешение 1240х768» и 30х30 см пробел вставлять не будем. Видишь, Word ничего не подчеркнул. Тут же: «1240 х 768» и «30 х 30 см», он подчеркнул букву
«х», как будто ты чего-то недописал...
Еще я не вставляю пробел в такое: Shift+Ctrl+Z. Не знаю, правильно ли. Но тексты с подобными конструкциями я не сканирую, и, поэтому, остаюсь в данном вопросе
невежественным.
АВЕНТЮРА X
МЕЛКИЕ ХИТРОСТИ БОЛЬШИХ МАСТЕРОВ
1. Ударение на букве o (бoльшая, чем...) и на a. Хитрые буквы в скандинавском, венгерском и др. языках
Это все в «Вставка» - «Символ» (вытащи эту кнопку на панель, если ее нет. Облегчи себе работу).
Открой «Символы» на «Обычный текст» и просмотри таблицу сверху донизу. Там ты узришь среди специальной латиницы: o, o, o, u, e, a, a, a (можешь выделить приведенный мною символ
и открыть таблицу «Символы». Word сразу укажет, где в таблице данный символ находится).
Пользуйся латинской o как русской «о» с ударением. Немедленно в таблице символов назначь ей комбинацию клавиш («Клавиша»): у меня, например, это [Alt о] (русское о). Ударение на
a распространено меньше, но все равно назначь клавишу (у меня это комбинация [Alt a - английская (русское ф)]).
Сходным образом, поскольку я часто использую символы ?, ?, ?, то они у меня под такими запоминающимися комбинациями (назначил): [Alt а (русская)], [Alt b (латинская)], [Alt г
(русская)]. Так удобно и не перекрывается с другими функциями Word, управляемыми комбинациями клавиш.
Понятно, что венгерский и скандинавский используешь редко. Бери для них буквы вручную из «Вставка» - «Символ». Вот мое:
Per Wahloo, Maj Sjowall. MANNEN SOM GICK UPP I ROK.
Не поленись, - это компьютер, можно легко все сделать корректно и навеки.
Тем не менее, по-моему, сильно увлекаться этим не следует. Вот, например, я не знаю, берет ли Fine Rider греческий, но видел однажды целые абзацы и множество ссылок в
электронной версии исторической монографии на греческом. Неужто кто-то вставлял из символов по букве? А если и сканировал (поставил «греческий» в своем Fine Reader) - неужто
скорректировал все ошибки в своем тексте по-гречески? Думаю, нам столько греческого не нужно, да и вряд ли он будет без ошибок после OCR и даже внимательного считывания (мы
гимназиев не кончали).
Если же тебе в сканированном каким-то глубоким мастером тексте попалась единственная странная буква, не спеши вытирать ее. Может, мастер не зря ее поставил. Выдели эту
диковинную букву и открой таблицу «Вставка» - «Символ». Немедленно Word укажет в таблице, что это за буква и ты сможешь сообразить, уместна ли она в тексте или ошибочна.
2. Как сделать, чтобы во всплывающей сноске в *.doc не было переносов
Ты, товарищ мой прилежный, наверное и сам видел желтые всплывающие сноски, в которых среди текста изобилуют дефисы. Например (сравни с предыдущим абзацем):
«...тексте попалась един-ственная странная буква, не спеши вытирать ее. Выде-ли эту диковинную букву...».
Так отображаются переносы в тексте сносок.
Щелкни два раза на номере сноски и откроешь весь лист их текстов. Он, конечно, помечен русским, и переносы там есть. Выдели весь текст, открой левое длинное окошко на панели
(«Стили»), возьми стиль «Текст сноски» и установи его для текста. Наплюй, что этот стиль («Текст сноски») окажется присвоенным и номерам сносок, которые, по умолчанию, имеют
стиль «Номер сносок». Только лучше будет - крупнее. Да иначе ты просто замучаешься выделять только тексты сносок без их номеров, чтобы совершить то, что вот сейчас я тебе
скажу.
Итак, ты присвоил стиль «Текст сноски». Теперь выделенный лист текстов сносок пометь языком «Без проверки» («Сервис» - «Язык» - «Без проверки»). Затем подожди, подожди немного,
если у тебя слабый компьютер (как мой ночной): пусть он очухается и переформатирует текст листа сносок на язык «никакой». Пусть, соответственно, уберет переносы (иногда для
очухивания приходится открыть-закрыть лист сносок и погонять страницу самого документа туда-сюда. Почему-то только тогда Word делает, что надо).
В процессе считывания текста и, соответственно, последовательного вставления сносок я делаю так:
Вставил первую, которая встретилась, придал ей всей (вместе с номером) стиль «Текст сноски», убрал язык и - закрыл (щелкни один раз по номеру сноски в листе сносок, и ты в
основном тексте документа окажешься там, где этот номер вставлен).
Встретилась вторая сноска - вставляй ее в лист сносок (печатаешь или из буфера). Затем ставишь курсор на первую, уже исправленную тобой сноску, берешь кнопку «Кисть» («Формат по
образцу») и - покрываешь вторую, еще не покрытую сноску. Она теперь того же стиля и на языке, неизвестном на земле. Понятно, что переносы исчезнут. Иногда, правда, кистью язык
«никакой» не ставится (ошибается Word). Тогда снова лезь в «Сервис» - «Язык» и бери язык «Без проверки».
ЗАПОМНИ, ЧТО УБИРАТЬ ЯЗЫК С ТЕКСТА СНОСОК НАДО ПОСЛЕ ИХ ПОЛНОЙ ПРАВКИ (иначе орфографические ошибки не выделятся).
Ну вот и все с этой частью, мой маленький дружок.
ЧАСТЬ ВТОРАЯ
ИЗ УНЫЛОГО ТЕКСТОВОГО ФАЙЛА (*.txt) - В КРАСИВЫЙ ФАЙЛ WORD (*.doc)
Множество сканированных книг представлены в *.txt. Говорят, вирусы не берут. Говорят, маленькие весьма. Не знаю: и *.doc, архивом схваченный, вирусы не берут. И *.doc в
архиве невелик. Если, конечно, в него не вставлены рисунки. Но рисунки и не вставляй - приводи их в отдельном каталоге. Именно файлы рисунков придают объем, а если их много, то
разница в размере между *.txt и *.doc не стоит даже упоминания.
Однако *.doc обладает неоспоримыми преимуществами при корректуре, при заменах, при поисках в тексте. И при работе с текстами: ты явно станешь писать в Word'е, а не в WordPad или
в блокноте. А посему - хорошо отформатированный кусок для тебя весьма лаком. Но попробуй открыть *.txt в Word, и увидишь печальную картину... Того нет, сего нет, третьего нет
(как у протестантов). Сразу охота все поиметь. Как сделать?
Перво-наперво знай, что иной раз открытый в Word текстовой файл им не узнается (наверное, по стилю). Это значит, что поиск в нем не работает (такое я встречал не раз).
РАБОТАЙ С КОПИЕЙ ИСХОДНОГО ТЕКСТА, который хочешь перевести из *.txt в *.doc. Оставь исходное на всякий случай (зависнет компьютер, и свои эволюции с текстом ты отменить не
сможешь).
Но вот копию *.txt ты открыл в Word и с ужасом зришь на нее. Одни сплошные абзацы! Вместо концов строк абзацы. А где сами абзацы, и не разберешь... Но не бойся!
Выдели весь текст и сразу же выполни следующие этапы. Помни, порядок важен. Я ввел всю последовательность в макрос для Word. Итак:
1) Поставь правильные поля (см. часть первую).
2) Присвой стиль «Обычный»
3) На всякий случай затем поставь «Times New Roman» и его размер 12 пт.
4) Щелкни на тексте правой кнопкой, вызови «Абзац» и расставь «Интервал перед и после» - 0 и 0; «межстрочный интервал» - один; абзацный отступ («первая строка) default (0,5
дюйма).
5) Поставь язык «русский» (меню «Сервис»).
6) Замени во всем тексте кавычки на кавычки (помни, что у тебя в «Сервис» - «Автозамена» - «Автоформат при вводе» должен стоять флажок на «Заменять прямые кавычки парными»). Как
это сделать и как кавычки отображаются в окнах «Найти - Заменить» - см. авентюру VI (5).
7) Теперь убери выделение и коротко изучи, что тебе подсунули. Посмотри, как в *.txt помечены абзацы. Обычно они помечены несколькими пробелами - видел от 2-х до 7-ми. Иногда
бывает, что для одной части текста - 3 пробела на абзац, а для другой, скажем, 5. Тут ничего не поделаешь: текст придется разбивать и работать с частями. Правда, подобное мне
встретилось за все время только один раз (наверное, можно пренебречь).
8) Но вдруг кто-то вместо таблицы разбил соответствующие данные в тексте пробелами. Подробно об этом см. часть первую, авентюра III (1). Просмотри текст на наличие подобного
(много в книгах по истории). Как обнаружить - смотри ту же авентюру III. Замени всю эту гадость на нормальные таблицы (обязательно) или вырежи и пока перенеси в другой файл (не
рекомендую: забудешь, откуда. Придется смотреть исходный вариант, с которого ты копировал файл для своих кунштюков). Только после этого переходи дальше.
9) Итак, твой абзац в *.txt соответствует, например, 5 пробелам. Немедленно вызывай «Найти - Заменить» и перемечивай абзац. Я перемечиваю его символом крышки (в обычном тексте
он практически не встречается: только как огрехи OCR). В «Найти» ставишь 5 пробелов, а в «Заменить» ставь крышку («Больше» - «Специальный»). Делай все.
10) Заменяй все абзацы (в смысле, символы абзацев), на пробел. «Найти» - «Символ абзаца», а «Заменить» - ставь пробел клавишей.
11) Заменяй крышки на символы абзацев.
12) Теперь возьмись за тире. О тире подробно смотри авентюру IV в части первой. Снова изучи свой документ: как в исходном *.txt были нарисованы тире? Их вид у тебя пока прямо
девственный: как в оригинале. Может быть так: ( - ), а может быть и так ( -- ). То есть, один или два дефиса. Но - в обрамлении пробелов (не смотри пока на то, что пробелов
может быть несколько подряд - всему свое время). Если же огрехи оригинального OCR и оригинальной корректуры оставили «тире» без обрамления пробелов, то пока забудь об этом. Тут
вернись и изучи о неразрывных пробелах авентюры IV и VIII в части первой. Потом переходи к следующему:
Замени (пробел дефис пробел) на (неразрывный пробел длинное тире пробел);
Замени (пробел дефис) на (неразрывный пробел длинное тире);
Замени (дефис пробел) на (длинное тире пробел);
Проделай то же самое, что и с дефисом, с коротким тире, заменяя его на длинное. Скорее всего, ты и не найдешь коротких тире, однако проверь.
13) Удаляй лишние пробелы, как крайне подробно указано в авентюре III, часть первая. И в тексте, и спереди, и сзади символа абзаца («Только успевай поворачиваться!» - как
сказано в Гаргантюа Ф. Рабле).
14) Теперь найди «нехорошие» тире. Те, которые без обрамления пробелов. Сделай «Найти» (любая буква длинное тире). Правь вручную. Заодно попадутся и те места, где в словах типа
«какой-нибудь» предыдущие мастера OCR просмотрели наличие пробела справа («какой- нибудь»). В этих местах дефисы у тебя заменились на длинные тире.
Затем, конечно, смотри (длинное тире любая буква), или отсутствие пробела справа от тире.
15) На всякий случай проверь дефисы рядом с пробелами: «Найти» (пробел дефис) и, затем, (дефис пробел). Устрани огрехи (правда, они вряд ли будут).
16) Однако типографщики и браузеристы требуют от нас правильной расстановки и короткого тире (см. выше подробно авентюру III в части первой). У тебя же пока нет и следов
коротких тире.
Включай «Найти» «Любая цифра» и терпеливо просматривай все (короткие тире, напомним, в местах типа 2-3 и 1960-1970 гг.). Правь вручную.
Правда, остаются еще и римские цифры (V-IV вв. до н. э.). Что ж, придется и их. Включай «Найти» на I (большая i). Смотри. Затем включай «Найти» на V, а потом - на X (большая
«экс»). Правь. Конечно, если в тексте много латиницы, то это трудно. Тогда придется считывать (но «Найти» все равно проще).
17) Замени (т. к., т. е., и т. д., и т. п.) на (т.к., т.е., и т.д., и т.п.). Подробно смотри авентюру VIII (3).
18) Самое смачное: кавычки. Очень подробно выше (часть первая, авентюра VI). Сначала глянь, нет ли возле них буквы или цифры без пробела (напомним, что для поиска форма кавычек
" или « роли не играет, как и то, куда глядят кавычки: « или »).
«Найти» (любая буква " [так они будут видны в окошке «Найти»]). Правь.
Затем наоборот (сначала кавычки, а потом любая буква).
Проделай то же самое с любой цифрой.
А теперь просматривай все кавычки подряд сначала. Сможешь, наверное, увидеть, где их не хватает до пары, и даже сможешь увидеть «кавычки внутри закавыченного тексте» (подробнее
- авентюра VI часть первая). И сможешь заменить внутренние «ёлочки» на «лапки».
Затем просмотри текст на предмет необходимости иностранных кавычек (очень подробно, опять же, авентюра VI).
19) Теперь исправь другие возможные огрехи, как указано в авентюре V (часть первая). Тут, помимо указанного, целесообразно просмотреть текст на наличие «крышек» (частый огрех
OCR, да и ты выше манипулировал с «крышками»).
И вообще: если тебе встретится при считывании второй раз один и тот же огрех, значит, OCR закономерно ошиблось в каком-то символе или фрагменте. Сразу же бросай чтение (отметь
место докуда дошел нераспространенным словом: у меня - «досюда». Потом найдешь по «Найти»), включай «Найти» и вводи туда указанную ошибку. Исправляй по всему тексту (так будет
быстрее). Например, вместо «на» все время «па». Вряд ли у тебя в тексте много про танцы («сделал "па"»). Увидел - гони «Найти» на это «па» (но поставь «Только слово целиком»).
Исправляй вручную: «Заменить» лучше не трогать: вдруг это «па» стоит не только вместо «на», но и вместо еще чего-нибудь.
20) Далее - по соображению. Можешь, например, захотеть вставить неразрывный пробел в места типа № 1, глава 1, г. Москва. Лепи в «Найти» № и смотри, затем лепи туда «глава» и
смотри. Наконец лепи г (для «г» придется поставить «Только слово целиком». Для «г.» же эта опция не установится). Далее действуй по своему вкусу и по конкретике текста. Основной
подход я тебе указал.
21) И только когда закончишь все, начинай внимательно и с интересом читать. Почему «с интересом»? А потому, что нечего сканировать либо переводить из *.txt в *.doc то, что тебе
не интересно. Даже не берись за подобную работу «из-под палки»: OCR и корректура дела кропотливые и трудоемкие, без нужды к ним приступать нечего. Ну, а коли нужен какой-то
учебный текст (нужен, но неинтересен), то и не возись: делай так, что лишь бы понятно было и без фактических ошибок. На сиюминутные тексты также не утруждайся. Для меня,
например, это всякие детективчики последних лет. А также куча каких-то современных доморощенных «фантастиков». Вижу, что и их сканируют. Что ж, тоже правильно: люди не будут
тратиться на всякое барахло, а, если уж припечет, возьмут из сети и прочтут кое-как один раз. На два уже не хватит; может быть, и один-то раз не дочитают. Зато сэкономят деньгу.
Однако я бы помещал в электронных библиотеках такие книженции в специальную рубрику: «Однодневное чтиво» или: «Прочти, если осилишь, и сотри».
ЧАСТЬ ТРЕТЬЯ
ОСНОВНЫЕ ПОЖЕЛАНИЯ ПРИ OCR
1. Сканируйте пакетами (по много страниц).
2. Каждую сканированную страницу сегментируйте сначала автоматически, но потом сразу же просмотрите ее и вручную поправьте сегменты, удалите неудачные и замените их на
нужные. Поднимите низ сегментов, чтобы избежать номеров страниц. Только потом закрывайте страницу и переходите к сканированию следующей.
3. Наберете пакет - перед распознаванием сохраните его на всякий случай. Бывают сбои, и труд пропадет. Когда распознaете, переведете в *.doc и затем сохраните его (пусть это
будет только часть книги - все равно надо обязательно), то удалите использованный пакет (нечего засорять).
4. Забудьте, что в Fine Reader есть редактор и проверка. Делайте все это в Word.
5. Ни в коем случае не распознавайте рисунки Fine Reader'ом (рекомендую брать такие рисунки вместе с текстом только в случае сиюминутных или учебных материалов).
Дело в том, что для подавляющего большинства книг достаточно разрешения при сканировании 300 точек на дюйм. Для рисунков же (даже штриховым и черно-белых) надо не менее 400 (я
делаю 400, иначе слишком велики).
Поступай так: дошел до текста со смачным рисунком - сканируй текст с этого места. Сохрани его вместе с предыдущими страницами в пакет. Выйди из Fine Reader, открой свой
графический редактор (если не выйдешь из Fine Reader, то драйвер сканера останется у него), сканируй как надо рисунок и сделай его. Закрой редактор, вызови Fine Reader, открой
пакет и продолжай дальше. Когда придет второй рисунок, то сохранить дополненный пакет уже не получится (я использую Fine Reader 4, хотя имеется дистрибутив и на 5-й. Не знаю,
есть ли разница между ними в нашем случае и может ли 5-й сохранять дополненный пакет). Итак, пришел второй рисунок. Сканируй текст с тех страниц, где этот рисунок, и, что ж
делать, распознавай пакет, сохраняя затем в *.doc фрагмент текста книги. Далее делай рисунок и т.д.
Почему я при встрече рисунка делаю пакет (или распознаю), выхожу из Fine Reader, потом сканирую рисунок в графическом редакторе, а затем снова возвращаюсь в Fine Reader? А чтобы
лишний раз не укладывать толстую книгу аккуратно на сканер, прижимая ее грузом. Такое лишнее укладывание может дополнительно попортить ей шкурку, а она и так портится.
6. Искусство сканирования рисунков хитрое. Руководство имеется на «Электронных полках Вадима Ершова». Скажу только, что не следует увлекаться цветным там, где это не слишком
нужно - лучше сделать хороший 256 оттенков серого (с бoльшим разрешением) чем плохой цветной.
7. Не советую пользоваться функцией Fine Reader «Передать в Word». В подобном случае Fine Reader передает слишком много своих стилей и шаблонов (размер шрифтов и т.д.),
которые ты будешь исправлять. ПОЛЬЗУЙСЯ «КОПИРОВАТЬ В БУФЕР».
8. Вот ты вытянул из буфера фрагмент после OCR в Word. Глянь в окошко стилей - там может торчать "Fine Reader". Это не годится, не годится... Немедленно поступай так, как с
текстовым файлом, который хочешь перевести в *.doc: см. выше всю часть вторую. И начинай, как там указано, с самого начала. Не забудь после установки полей, стилей и шрифтов
немедленно удалить мягкие переносы, наделанные Fine Reader. См. о них выше самое начало авентюры V. Кратко: «Найти» мягкий перенос () [знак ставится Ctrl - (т.е. дефис на
нормальной клавиатуре] а «Заменить» на ничего (ничего не ставь). НЕ ЗАБУДЬ УДАЛИТЬ МЯГКИЕ ПЕРЕНОСЫ! Множество чудаков забывают это сделать.
9. И далее действуй как в части второй. Понятно, что после OCR метить абзацы крышками (как в части второй) нельзя. Есть и еще одна специфика: после OCR тире у тебя не будут,
как в *.txt, в виде ( - ) или ( -- ). Они будут разнообразными тире: то длинными, то короткими. Поэтому, в отличие от трансмутации *.txt > *.doc, ты должен:
а) «Найти» (длинное тире просто (не указывай пробелы) - «Заменить» (длинное тире в обрамлении пробелов, причем левый - неразрывный).
б) «Найти» (короткое тире просто (не указывай пробелы) - «Заменить» (длинное тире в обрамлении пробелом (левый - неразрывный).
А далее поступай, как в части второй: удаляй лишние пробелы, меняй кавычки, ищи ошибки и т.д., и т.п. Главное - творчески используй «Найти» - «Заменить».
10. Моя причуда при корректуре текста после OCR.
Меня, конечно, засмеют, но кажется целесообразным заменить неправильное распознавание OCR русских букв как близких по начертанию английских (наоборот же малоактуально - у нас
русские тексты, и если даже будет что-то подобное, то корректируй это при считывании). Какие это буквы? Это (англ. клавиатура) e, a, o, c, y, x, p, b («Найти» обнаружит большую
англ. «В», которая как русская «В»), m (тоже большая), h (и эта большая H), t (и эта тоже), k (и эта большая). Вроде, все. При быстром компьютере дело десяти минут максимум.
11. Форма представления книг в электронной версии.
На мой взгляд, не следует делать несколько колонок: для документа Word это, порой, получается слишком мелко. Трудно работать с текстом, забирая кусок и перенося его в свою
рабочую рукопись: в ней приходится переформатировать в одну колонку. Все-таки *.doc - не книга, и он лучше. Поэтому не следует пытаться воспроизводить все особенности книжного
варианта. Зачем ссылки как верхние символы, когда ты можешь поставить их в квадратных скобках нормальными цифрами? И виднее, и, понятно, надежнее. И возни меньше.
Не следует также грешить разрывами страниц и разделов, чтобы воспроизвести верстку книги (в особенности этим грешат применительно к первым страницам: где форзац, титульный лист
и т.п.).
ПОМНИ, ЧТО *.DOC - ЭТО НЕ АУТЕНТИЧНАЯ КОПИЯ КНИГИ. Он лучше. И он должен быть проще. Приводи, однако, как я уже указывал, выходные данные книги (строго смотри авентюру VII части
первой). Укажи тираж и цену. А всякие «... подписана к печати 12/01/1955» и т.п. не надо.
Интересно, что у академических историков и философов принято ссылаться на страницы в книге, и они в электронных версиях указывают, где начинается-кончается страница номер
такая-то оригинальной книги. Но большинство дисциплин ссылается на факты в трудах и, поэтому, для них страницы без надобности: там идет ссылка либо на всю книгу, либо на статью
в ней, если книга - сборник разных авторов. Историки и философы же любят цитаты, и вот у них так и пошло.
Лично я расставлять номера страниц книги в электронной версии не хочу. Некрасиво и трудоемко. Мне это кажется без надобности (слишком узкому кругу надо).
12. Состав каталога электронной версии.
Обычно я привожу «Литературу» (или «Примечания») отдельным файлом. Когда список большой, это, на мой взгляд, совершенно необходимо.
Также и с «Предисловием» и «Послесловием», если они объемны и информативны. Иногда «Предисловие» и «Послесловие» целесообразно объединить в единый файл «Приложение»
(Appendix.doc). Иногда в «Приложении» находятся не они, а вспомогательные материалы к книге, найденные в сети мною. И т.д. Большое и сложное «Оглавление» также необходимо
выделять в отдельный файл (так лучше смотреть: можешь одновременно знакомиться и с текстом, и с «Оглавлением»). В данном «Методическом руководстве» «Оглавление» все же идет
впереди основного текста исключительно из соображений компактности (кроме того, это не книга), да и ты, наверное, ознакомишься с ним только один раз - вначале.
Файлы рисунков представляй в отдельном каталоге (не забудь указать в тексте места рисунков). Если сканировал обложку и фото автора, рекомендую не включать их в каталог рисунков
самого текста (это разные вещи).
Почему рисунки не в тексте? А вдруг книжные воротилы решат порушить электронные библиотеки и наймут хакеров-«вирусологов». И вдруг эти вирусы начнут распаковывать архивы и
внедряться в *.doc. Тогда придется снова переходить от *.doc в *.txt. Из хорошего *.doc легко сделать хороший *.txt. Но рисунки-то куда девать? Если их «вынуть» из текста, то
качество ухудшается сильно (разве что перевести *.doc в *.html).
Кроме того, *.doc с рисунками в тексте плохо архивируется. А если у кого компьютер не шибко сильный, то *.doc со многими картинками листается трудно.
Так что рисунки - в отдельном каталоге.
В качестве примеров см. мой сборник «Все романы Пера Валё и Май Шёвалль на русском языке» и [Рансимен С. «Падение Константинополя в 1453 году»] на «Электронных полках Вадима
Ершова» (С. Рансимен есть также в библиотеке "Site Folio", являющейся внушительным собранием уникальных исторических текстов в формате *.doc).
Ну и все. С Богом. Готье Неимущий (Gautier Sans Avoir). saus@inbox.ru
Январь 2003 г.
|