ОГЛАВЛЕНИЕ
ОСНОВНЫЕ НЕДОСТАТКИ В ПРАКТИКЕ ЭЛЕКТРОННЫХ БИБЛИОТЕК
О ПРЕДСТАВЛЕННОМ МЕТОДИЧЕСКОМ РУКОВОДСТВЕ
ЧАСТЬ ПЕРВАЯ
ЧТО ТАКОЕ «АККУРАТНОЕ ФОРМАТИРОВАНИЕ»
ЧТО ТАКОЕ КОРРЕКТНОЕ И ЕДИНООБРАЗНОЕ ПРЕДСТАВЛЕНИЕ ТЕКСТА
АВЕНТЮРА I
ПРЕДВАРИТЕЛЬНАЯ
АВЕНТЮРА II
ДОКУМЕНТ WORD *.DOC ДОЛЖЕН БЫТЬ...
АВЕНТЮРА III
ПРОБЕЛЫ
АВЕНТЮРА IV
ДЕФИСЫ И ТИРЕ
АВЕНТЮРА V
УСТРАНИ ВСЕ, ЧТО ВОЗМОЖНО, ПОЛУАВТОМАТИЧЕСКИ
АВЕНТЮРА VI
САГА О КАВЫЧКАХ
АВЕНТЮРА VII
СКАЗ О ЗАХРЕБЕТНИКАХ, СОСТАВЛЯЮЩИХ ГОСТы
1. Форма представления выходных данных сканируемой книги или статьи
2. Форма представления номеров ссылок в тексте
3. Порядок нумерации ссылок
АВЕНТЮРА VIII
ПЛАЧ ПО НЕРАЗРЫВНОМУ ПРОБЕЛУ
АВЕНТЮРА IX
ФОРМУЛЫ И ПРОЧАЯ МАТЕМАТИКА
АВЕНТЮРА X
МЕЛКИЕ ХИТРОСТИ БОЛЬШИХ МАСТЕРОВ
ЧАСТЬ ВТОРАЯ
ИЗ УНЫЛОГО ТЕКСТОВОГО ФАЙЛА (*.txt) - В КРАСИВЫЙ ФАЙЛ
WORD (*.doc)
ЧАСТЬ ТРЕТЬЯ
ОСНОВНЫЕ ПОЖЕЛАНИЯ ПРИ OCR
ОСНОВНЫЕ НЕДОСТАТКИ В ПРАКТИКЕ ЭЛЕКТРОННЫХ БИБЛИОТЕК
Для каждого, кто любил и любит читать, имеется свой ряд книг и публикаций, которые представляют для него особую ценность. Некоторые прочтены когда-то давно и воспоминания о
приятном времени общения с ними греют душу. Понятно, что хочется иметь избранные книги в постоянном доступе. Ранее мы были вынуждены их искать, приобретать, обменивать,
доставать через сдачу макулатуры и, что греха таить, иногда и «зачитывать». Теперь же мы получили возможность брать их из сети благодаря самоотверженному и бескорыстному труду
мастеров OCR. И сами можем пополнять библиотеки в сети (сканер стоит мало).
Нынешнее время - тяжелое время. Мы должны быть постоянно настороже, мы должны быть мобильны. Никто не знает, что случится с ним не то что в отдаленное, но даже в ближайшее
будущее. Никто уверенно не скажет, что он через столько-то лет останется жить там, где он живет сейчас. Словом, уверенность в завтрашнем дне у того, кто еще не совсем спятил и
видит, что творится кругом, должна отсутствовать с необходимостью. И в таких условиях иметь один-два CD с электронными версиями наиболее важных и интересных для тебя книг -
большая удача. Ведь тогда получится «Все свое ношу с собой». Более того, эти CD, в отличие от книг, вполне оправдывают довольно глупое выражение «Рукописи не горят». Горят,
друг, еще как горят! А вот про электронные версии действительно можно сказать именно так: даже если испортятся твои CD, где-то в сети все должно остаться. И ты снова выкачаешь.
Поэтому труд по составлению электронных библиотек переоценить трудно.
Говорят, что читать с экрана плохо, неудобно и вредно для глаз. Принимаю только последний аргумент. Лично мне, всю жизнь читавшему книги, читать с компьютера приятнее (он до
сих пор вызывает у меня щенячий восторг). А насчет глаз... Подождем, братцы, когда создадут нормальные планшетные штуки, которые будут полностью воспроизводить условия прочтения
книг. Конечно, идиотская функция по перелистыванию электронных страниц в планшете (слышал, ныне сделали), чтобы было совсем похоже на чтение книги, это извращение. Извращенцы
те, кто ее создал. Лучше бы они позаботились создать такие условия яркости и контрастности в своем планшете, которые бы действительно соответствовали параметрам текста на
странице в книге. Чтобы глаза не уставали и не портились. Думаю, что это вполне можно сделать и когда-нибудь сделают. Думаю, что и цена будет доступной. И последний аргумент в
пользу бумажных книг, связанный с вредностью для глаз чтения с экрана, отпадет. Лично я верю, что до такого дойдут.
Скажут: «Вот, будут всякие пертурбации, безобразия всякие настанут. Свет начнут выключать, как это уже делают сейчас во многих регионах России». Безобразий, в самом деле,
вокруг много. Знаю, например, что на новый 2003 г. в целом ряде районов Санкт-Петербурга отключили свет на четыре дня (морозы, дескать). Ну, если свет начнут отключать на
недели, то тогда, брат, наиболее целесообразным чтением для нас будет чтение Библии при свече. Ее, конечно, оставь и имей.
Будем ждать невредных и дешевых планшетов для чтения электронных книг, а пока надо создать базу книг. Следует иметь в виду, что на Западе подобных библиотек нет - там
буржуйские авторские права хапуг соблюдаются строго. И в России мечтают сделать подобное. Учитывая то, что ныне российские буржуи начали потихоньку отнимать у народа розданную
ранее советскую собственность (повышая налоги на имущество, плату за квартиру и т.п.), то вполне возможно, что скоро всё начнут прикрывать, и держатели электронных библиотек
будут вынуждены их закрыть. Глянь, кстати, на эту тему http://www.iis.ru/el-bib/2001/200101/vislii/vislii.ru.html. Следует ловить момент и собирать все ныне: живем, друг, как на вулкане, который запалили некие
паразиты.
Казалось бы, базы электронных версий огромны (у одного Машкова десятки тысяч). Казалось бы, библиотек много. Масса мастеров OCR давно сканирует книги, забрасывая их в сеть.
Однако вышеуказанная задача по созданию действительно того, что надо, не решена, на мой взгляд, и на треть.
Вот увидел в сети нужную тебе давно знакомую книгу, обрадовался, выкачал. Начал читать: сплошные опечатки, недоработки, неправильное разбиение на абзацы и т.п. Даже
отсутствие фрагментов. Конечно, если это какой-нибудь вшивый современных детектив или «фэнтэзи», которые предназначены для чтения в сортире, то и пёс с ними. Но тебе-то надо
серьезные книги, тебе-то надо, чтобы они были аутентичны по тексту, чтобы вместе с тобой перейти в вечность. Хорошо, если ты пока не утерял в гнусных современных условиях
книжный вариант (и если он у тебя есть вообще). Тогда ты можешь его взять и, тщательно сверяя, поправить версию. Работа, конечно, немалая, но она делается один раз и того
стоит.
Не жалей, друг, труда на то, что делается один раз и окончательно. Помни, что ничто так не постоянно, как временное. Закинешь в сеть недоработанную тобой версию, и многие,
инкрустировав твои вопиющие недочеты яхонтами и изумрудами на своих Web-страничках, раскрасив все яркими красками, гордо выложат ее в своих библиотеках. А отвечать перед
Господом будешь в первую очередь ты.
Имей в виду, мастер OCR, что, посылая электронную версию какой-нибудь значимой и несиюминутной книги, ты имеешь шанс оставить после себя нечто вечное. И это даже важнее, чем
написать несколько десятков статей в какие-нибудь специальные журналы (их прочтет всего несколько десятков специалистов, а потом они устареют). Важнее, чем написать какую-нибудь
монографию (исключение - история, философия, социология (отчасти) и религия). Получается, братец, так, что любой из малых сих, любой молодой и начинающий жизнь человек может
оставить для людей после себя большее, чем некий проработавший всю жизнь маститый профессор или там академик. Парадоксально, но это так.
Имеется, однако, одно требование. Электронная версия должна быть не менее точной, чем книжный вариант времен СССР. Почему «времен СССР»? А потому, что тогда очень строго
подходили к корректуре и опечаток практически не допускали (одна-две на толстенный том). Ныне же печатают как Бог на душу положит.
Мне странно видеть, как мастера OCR, затрачивая невероятно много времени на сканирование и на свое, пусть даже неудовлетворительное, считывание, не могут выпустить версии без
ошибок. Всего-то требуется еще немного потрудиться. И раз считай, и два считай. Не гонись за количеством сканированных книг: сделай немного, но окончательно. Сделай так, чтобы
тебе «не было мучительно стыдно за бесцельно прожитые годы». А то, друг, такие, например, как я, не скажут тебе «спасибо», выкачав твою версию.
Вот взял я, например, «Ходжу Насреддина» Л. Соловьева. В середине текста какие-то обрывки, опечаток масса, абзацы хромают. Множество «крышек» (огрехи OCR). За каким хреном,
спрашивается, надо было сканировать столь замечательную книгу, если мастер OCR ее только загадил?
Поэтому я с опаской отношусь к электронным версиям классических произведений: там важна буквально каждая запятая, каждый абзац. И нет уверенности в том, что мастер OCR считал
все абсолютно точно. Но ты, если уж «делаешь» классику, изволь считывать до каждой точки и запятой. И укажи об этом в своей версии: «Я, такой-то, дескать, считал текст так
внимательно, как только мог, я, дескать ручаюсь...» и т.д. Даже если у тебя псевдоним, все равно, при написании этих строк ты почувствуешь, как внутри тебя зашевелилась совесть
и давит на твое чувство ответственности.
В идеале для считывания нужны два человека: один читает книгу, называя запятые, точки и т.п., а другой смотрит на экран и проверяет. Хорошо делать подобное семьями, но,
думаю, никто не имеет такой возможности. Супруга (или супруг) немедленно скажет: «А пошел ты... Глупостями еще заниматься». И вряд ли поймет она(он) что это - возможность
оставить после себя что-то значимое.
Наверное, так делать могут только монахи-компьютерщики в монастырях. Однако и они не достигают идеала. Вот, например, текст Библии. Этот текст из светских библиотек ты можешь
использовать только для ознакомления. Не вздумай цитировать и даже ссылаться на стихи внутри глав. Очень много несовпадений с синодальным переводом, который является
каноническим (в книгах Библии издатели проверяют каждую запятую, и ошибок там нет). Взял я Библию с православного сайта. Но - единого текста нет, а только в виде Web-страничек.
Найти какую-нибудь цитату, если точно не знаешь название книги, где она присутствует, почти невозможно (на каждую главу внутри каждой книги - своя Web-страничка).
Единый текст Библии есть, однако на светских сайтах. Взял, смотрел - ошибок много. Но и на православных сайтах в тексте монахи (наверное, они) тоже, порой, пропустят
запятую-другую или же вместо точки с запятой оставят запятую, которую ошибочно раcпознал их OCR. Непорядок.
Заканчиваю вводную часть. Мой призыв остается прежним:
ВЫКЛАДЫВАЙ ЭЛЕКТРОННУЮ ВЕРСИЮ ТОЛЬКО В ОКОНЧАТЕЛЬНОМ ВАРИАНТЕ. ПРОВЕРЯЙ ЕЕ КАК МОЖНО ТЩАТЕЛЬНЕЕ, НЕ ЖАЛЕЯ ВРЕМЕНИ И ТРУДА. ИНАЧЕ НА ТОМ СВЕТЕ МОЖЕШЬ ПОЖАЛЕТЬ. УКАЖИ, ЧТО
СЧИТАЛ ТАК ХОРОШО, КАК ТОЛЬКО ТЫ СПОСОБЕН (БУДЬ СЕБЕ САМЫМ СТРОГИМ СУДЬЕЙ).
А чтобы тебе было легче все это сделать, я и создал данное методическое руководство. Оно, конечно, весьма сложно, но и подготовка версии без ошибок также сложна.
О ПРЕДСТАВЛЕННОМ МЕТОДИЧЕСКОМ РУКОВОДСТВЕ
Сканирую с 1997 г. Сначала - ручным сканером. Ручной сканер незаменим для газет: если накрыть газету стеклом, то он позволяет сразу взять колонку длиной сантиметров
шестьдесят и более. При навыке ошибок не больше, чем у планшетного. Ныне ручные сканеры уже не выпускают (а зря). Но можно купить с рук за $12-15.
Теперь же имею еще весьма простой планшетный «Mustek 1200 CP». Работал и на других (налаживал разным людям), более сложных. И скажу, что «Mustek 1200 CP» вполне годится и
ничем не отличается, если не сканировать фотографии или что-нибудь уж очень цветное (не делаю такого).
В результате накопился целый ряд навыков и сформировался определенный методический подход. Я посчитал полезным поделиться всем этим, хотя получилось и многовато.
Представленное методическое руководство написано, конечно, весьма эклектично и сумбурно; оно плохо систематизировано. Но таково большинство руководств по Windows и Word.
Слишком многое там цепляется друг за друга, слишком много замкнутых функциональных циклов. И одно из другого вытекает отнюдь не всегда. Поэтому трудно систематизировать. Так и в
моем руководстве: ты найдешь в нем все, что нужно (так я думаю), однако одно из другого вряд ли вылезет четко. Ведь все это - отдельные факты, отдельные приемы работы. Поэтому
работай над усвоением моих методик: читай внимательно, вытаскивай, что необходимо, выделяй или подчеркивай; составляй краткий конспект наиболее нужного. Когда же начнешь
работать со своим текстом - включай «Поиск», если хочешь что-то найти в моем руководстве.
Поработаешь над текстом руководства - лучше усвоишь.
Вспоминается средневековый учебник по химии. Тогда эта дисциплина представляла собой просто набор фактов и ремесленных навыков. Не была она систематизирована. И учебник
начинался просто: с рецептов дубления кож. И все их надо было запомнить, и все их надо было усвоить. И запоминали, и усваивали. Пусть и с тобой будет так.
Еще структура данного методического руководства весьма напоминает мне труд монахов-инквизиторов Я. Шпренгера и Г. Инститориса «Молот ведьм» (1487 г.). Очень похожа
рубрикация. Ну да ладно.
ЧАСТЬ ПЕРВАЯ
ЧТО ТАКОЕ «АККУРАТНОЕ ФОРМАТИРОВАНИЕ»
ЧТО ТАКОЕ КОРРЕКТНОЕ И ЕДИНООБРАЗНОЕ
ПРЕДСТАВЛЕНИЕ ТЕКСТА
АВЕНТЮРА I
ПРЕДВАРИТЕЛЬНАЯ
ВСЯКИЕ ПРОЦЕДУРЫ С ДОКУМЕНТАМИ Word СЛЕДУЕТ ПРОИЗВОДИТЬ ПРИ ВКЛЮЧЕННОЙ КНОПКЕ «НЕПЕЧАТАЕМЫЕ СИМВОЛЫ». И писать, и читать (чтобы привыкать). МЕТОДИЧЕСКОЕ РУКОВОДСТВО НЕ БУДЕТ
ПОНЯТНО ПРИ ВЫКЛЮЧЕНИИ ДАННОЙ КНОПКИ.
Это - необходимое требование. Я почти 20 лет печатал на пишущей машинке и, поэтому, когда начинал писать в Word, то непечатаемые символы (основные - знак абзаца и пробела) мне
мешали. Вначале я их выключал, а всякие отступы делал просто пробелом (как на машинке). На другую страницу, если предыдущая занимала не весь лист, переходил с помощью лишних
строк (Enter за Enter'ом). За количеством пробелов не следил вовсе. Но спасибо братцу, который дал мне по рукам в первый же месяц, строго указав, что компьютер - не пишущая
машинка. И я перестал выключать кнопку «Непечатаемые символы», привык к ней и ныне не воспринимаю текст без знаков абзаца и пробела. Многие, очень многие, как я вижу по разным
учреждениям, так не делают. И из года в год, выключая непечатаемые символы, портят документы и усугубляют себе жизнь. Так привыкают, что и отучаться не хотят.
ЕСЛИ И С ТОБОЙ ТАК, СОВЕТУЮ ОТУЧАТЬСЯ НЕМЕДЛЕННО.
Привыкай к хорошенькому. Пусть символы абзаца и пробела станут тебе столь же близкими, как собственные руки. Зачем они - увидишь ниже.
РАБОТАТЬ В ДОКУМЕНТОМ ЛУЧШЕ В РЕЖИМЕ «ОБЫЧНЫЙ» (или меню «Вид», или самая левая кнопка снизу). Тогда сокращается время просмотра: Word'у не надо листать документ. Это важно,
когда текста 100-200 страниц, а память у компьютера (в том числе видеопамять) невелика. На заключительном этапе, когда документ готов, можно разбить его на страницы и вставить
их нумерацию (ЖЕЛАТЕЛЬНО СВЕРХУ: если кто-то захочет печатать, то нижнюю нумерацию некоторые принтеры могут не взять). При желании - и колонтитул. Правда, захребетники -
составители ГОСТов, в 2002 г. заменили верхнюю нумерацию страниц на нижнюю. Чтобы жизнь была краше (об этих захребетниках мы еще поговорим).
ВКЛЮЧИ ПРОВЕРКУ ОРФОГРАФИИ ПО МАКСИМУМУ:
«Сервис» - «Параметры» - «Правописание». Смотри, чтобы не стоял флажок ни на «Пропускать слова из прописных букв», ни «Пропускать слова с цифрами». Эти функции тебе понадобятся,
когда считываешь после OCR (часто там вместо букв сходные цифры - не буква зэ (З), а цифра три (3) и т.п.).
Выдели весь текст и установи «Сервис» - «Язык» - «Русский». Иначе у тебя будут отсутствовать переносы слов (если русский текст пойдет без проверки или как английский).
Выдели весь текст и установи «Сервис» - «Язык» - «Русский». Иначе у тебя будут отсутствовать переносы слов (если русский текст пойдет без проверки или как английский).
Помни, что переносы устанавливаются с Microsoft Office в комплекте с Word. Не устанавливай там никакой «тезаурус» (не надо), но обязательно залезь и установи переносы. Я видел,
как часто забывали это сделать, а потом кусали локти, ибо не имели собственного установочного CD. Ты не сможешь без оригинального CD: «Установка и удаление программ» - "MS
Office" - «Добавить / Удалить».
Выдели весь текст и установи «Сервис» - «Язык» - «Русский». Иначе у тебя будут отсутствовать переносы слов (если русский текст пойдет без проверки или как английский).
Выдели весь текст и установи «Сервис» - «Язык» - «Русский>. Иначе у тебя будут отсутствовать переносы слов (если русский текст пойдет без проверки или как английский).
Кстати, когда в тексте имеется фрагмент на каком-нибудь ином языке (скажем, немецком), то ты можешь зреть при открытии документа возникающее в середине малое окошко в котором
отражена следующая жалоба «Не могу найти (далее два квадрата) для языка (один квадрат». Это Word не может найти установку переносов для того экзотического языка (в данном случае
- немецкого), который ее предусматривает (ведь немецкие переносы мы не устанавливали). В английском переносов нет.
И если ты забудешь поставить программу русских переносов, то Word доймет тебя своим окошечком с жалобой.
«Проверка орфографии» ставится в комплекте MS Office.
«Проверкой грамматики» я ранее никогда не пользовался (некорректная она, а зеленые подчеркивания захламляют). Но когда правишь результаты OCR, то, может быть, она и
целесообразна: часты ошибки типа вместо «но» «по». Увидеть их трудно, слова нормальные (орфография не подчеркивает), и тут, возможно, грамматика как раз и поможет. Впрочем, у
меня кривая программа установки MS Office 97, о чем я узнал только сейчас (использую ее пять лет), когда захотел попробовать грамматику (повреждена какая-то библиотека). Испытай
грамматику после OCR сам.
АВЕНТЮРА II
ДОКУМЕНТ WORD *.DOC ДОЛЖЕН БЫТЬ...
1. С едиными полями по всему тексту.
Бывает, правда, необходимость перевернуть лист в альбомный (большая таблица) или вставить большой рисунок. Тогда нужен «Разрыв раздела», и можно делать там другие поля. Но мы
имеем пока в виду обычный текст.
2. Шрифт лучше стандартный - Times New Roman
«С засечками», как в книге (многосотлетний типографский опыт показывает, что шрифт с «засечками» глаз воспринимает лучше). Это, обычно, - Times New Roman. Arial же - без
засечек; он используется иногда для заголовков. Я почти никогда уже не применяю ничего, кроме Times New Roman. Иной раз хорошо, конечно, что-нибудь особое - «Ижицу» или
какой-нибудь «Gotic». Однако надо помнить, что подобный экранный и TT шрифт будет не у всякого.
3. Текст при работе выравнивай по левому краю.
Это - стиль пишущей машинки, принятый для рукописей в научных журналах, который мне, например, более удобен: одинаковые расстояния между словами. Если же кто-то желает
по-современному выравнивать текст по обоим краям, то ему все равно следует начинать форматирование и коррекцию черновика с выравнивания по левому краю. Дело в том, что иначе
текст, например, при удалении фрагмента из строки, начинает «ползти»: Word расширяет промежутки между словами, чтобы даже при удаленных буквах и словах строка оставалась на всю
страницу. Это неудобно, поскольку «сбивает глаз», а также и замедляет процесс (при твоих удалениях Word вынужден проводить лишний этап). Попробуй и увидишь сам. Выравнивание по
обоим краям можно сделать в самом конце, когда больше не трогаешь текст.
4. Один и тот же размер абзацного отступа.
Не следует делать абзац Tab, т.е., символом табуляции (Tab сработает как установка величины абзаца default (0,5 дюйма - 1,27 см), если ты в начале печатания текста документа сам
установил его. Тогда Word, видимо, запоминает абзац и откликается на Tab его установкой. Но лучше не использовать Tab вовсе (то установит, а то - ошибется Word или ты в начале
сам не установишь абзац).
Недопустимо делать абзац пробелами. Во-первых, ты, чтобы сделать размер абзацного отступа одинаковым, должен будешь каждый раз считать пробелы (зачем это?). И, во-вторых, если
ты или кто-то другой захочет переформатировать документ, то несколько пробелов подряд могут переползти в текст.
Абзац - верхний бегунок на горизонтальной линейке. Но лучше ставить его default (0,5 дюйма). Вот перед тобой пустая страница: на ней только одинокий знак абзаца. Выдели его
мышью, щелкни правой кнопкой и - «Абзац» (либо в меню «Формат»), просто поставь «Отступ» - будет default).
Захотел изменить отступ в целом абзаце (несколько строк) - выдели его (или часть его) и осуществи ту же процедуру.
Нижний бегунок на линейке - выступ. Его быть не должно (в некоторых случаях, правда, нужен - «Список литературы»: номера полезно ставить левее следующей строки. Бывают и другие
подобные рубрикации). Но иногда выступ где-то появляется сам по себе. Тогда выдели это место и передвинь нижний бегунок до 0 см.
Полезно также использовать кнопку кисть «Формат по абзацу». Увидел, что у тебя какой-то абзац вдруг потерял необходимое форматирование, поставь курсор на абзац нормальный,
стандартный, щелкни на кисти, а затем просто выделяй ею то, что хочешь переформатировать в соответствии со стандартом (правда, если в стандарте, например, нет курсива, а в
переформатируемом месте есть, то он оттуда исчезнет. Следи).
5. Если заголовки или что-то еще (например, вставленный рисунок или таблица) располагаются посередине страницы (кнопка выравнивания «По центру»), то у них не должно быть
абзацного отступа: выдели необходимое, а абзацный отступ убери вручную, передвинув мышью верхний бегунок на горизонтальной линейки до 0 см.
6. Если надо не окончив страницу, перейти на другую, пользуйся только разрывом страницы (или раздела), но никак не «Enter за Enter».
7. Разрывами строки не пользуйся
Это вот что
(Shift + Enter). Это непонятно что и непонятно зачем оно надо. Вот, скажут, стихи хорошо писать:
«И казачество кубанское,
Днепр да Дон,
Сами же стаканами
Динь да дон»
(В.В. Маяковский; по-памяти)
Я не понял: ты видишь, что все полезло влево, и теперь ты должен выравнивать, но не абзацным бегунком на горизонтальной линейке, а бегунком «Отступа слева». И какая разница
по сравнению с абзацем? Даже лучше было бы абзацами, потом ровнять не надо:
«И казачество кубанское,
Днепр да Дон,
Сами же стаканами
Динь да дон»
Я презираю разрывы строки, я видеть их не могу при отображении непечатаемых символов. Я считаю их «непечатными символами». Да и ты - наплюй на них. Может, конечно, они нужны
для каких-то хитрых манипуляций при трансформации *.doc в другие форматы документов для Интернета. Тут я полностью серый. Но - я такого не делаю. Я делаю только Word. И имею
роскошь плевать на разрывы строк.
8. Различными стилями (левое оконце на панели) лучше не пользоваться (кроме всплывающих сносок - ниже).
Может показаться, что если заголовки и подзаголовки набраны различными стилями, то облегчается составление «Оглавления» - тогда Word способен делать его автоматически. Но мой
опыт показывает, что если оглавление мало, то и со стилями связываться нечего, а если велико, то иногда ошибся ты, сделав какой-нибудь из многочисленных подзаголовков не тем
стилем, а иногда, как ни странно, ошибается Word. И все равно приходится все проверять.
Поэтому все печатай обычным стилем. У меня он - Times New Roman, 12 пунктов (это ныне стандарт), один интервал, поля В - 2,5 см (чтобы влез если нужен и колонтитул), Н - 2 см
(проверь, чтобы взял твой принтер), Л - 2,75 см (привык), П - 1,75 см (также). Абзаца на всякий случай нет - ставлю вручную в начале каждого документа (вдруг надо будет сначала
сделать заголовок «По центру»).
Как сделать, чтобы указанные параметры были default и устанавливались сами собой при каждом открытии Word?
Через основной шаблон документа, normal.dot. Файлы шаблонов - Program Files (или MSOffice) - Microsof Office - Шаблоны - normal.dot.
Normal.dot по умолчанию - с крайне неудобным набором кнопок, плохими полями и шрифтом в 10 пунктов. Открой в Word не *.doc, а *.dot, конкретно - normal.dot, шрифт 12 пт,
натаскай кнопок нужных, убери ненужные тебе, сделай «Обычный вид» документа (не разметку страниц) и сохрани свой normal.dot. Однако поля default таким путем тебе не сделать.
Поступи так: изготовь свой normal.dot как я только что указал, потом выставь нужные тебе default поля, и сохрани шаблон под именем, скажем, norma.dot. Теперь у тебя два шаблона:
normal.dot и norma.dot. Закрой Word, сотри (а лучше на всякий случай перенеси куда-нибудь) normal.dot, а norma.dot переименуй в normal.dot. Открывай Word: увидишь, что и поля у
тебя ныне default.
Скопируй свой normal.dot куда-нибудь в хранилище, вплоть до дискеты или CD - потом пригодится, ибо Word при сбое портит шаблон, восстанавливая свой исходный (можешь, например,
даже удалить normal.dot из каталога Шаблоны, а потом открыть Word. Увидишь, что он сделает новый normal.dot по умолчанию). Пригодится и когда станешь снова устанавливать на
компьютер Windows и MS Office.
У меня, например, имеются особые кнопки, которые я сделал сам (и такое можно, хотя в Help, вроде, не указано).
Вернемся к заголовкам. Если стиль «Обычный», то делай их сам: шрифт полужирный или курсив. Следует помнить, что много курсива на странице плохо (это не любят и исправляют в
редакциях и типографиях). При разрешении экрана 800х600 много курсива воспринимается неважно, поэтому если уж крайне необходимо набрать страницу курсивом, делай шрифт 14 (13
плохо, почему-то Word 97 иногда его не запоминает, теряя при последующем открытии, в отличие от древнего Word 6. Может, конечно, мне попадался кривой Word 97). Совсем плохо -
полужирный курсив (в редакциях его используют только в очень коротких фрагментах - 1-2 слова). Изощряйся по-другому.
Подчеркивание также следует использовать минимально (сам погляди - на компьютере выглядит неважно).
Хочешь легко вернуться к обычному стилю - выдели что надо, и Shift+Ctrl+Z.
ИСПОЛЬЗУЙ ЭТУ КОМБИНАЦИЮ КЛАВИШ ШИРОКО - ОЧЕНЬ ОБЛЕГЧАЕТ ЖИЗНЬ
АВЕНТЮРА III
ПРОБЕЛЫ
1. Несколько пробелов подряд в тексте быть не должно.
Разве что в таком случае:
Исполняющий обязанности OCR Ф. Ридеров.
Здесь уж ничего не сделаешь: нужно место для подписи.
Отследи такие места в документе. Но это именно «документы», а не наши обычные тексты. Так что в дальнейшем пренебрежем «документами» (не про них пишу).
Правда, бывает, что в сканированном не тобой тексте кто-то вместо таблицы вставил разделенные целыми рядами пробелов столбцы. Сразу найди такие места и преврати их в таблицы.
Пусть даже маленькие, иначе при последующем переформатировании попрыгаешь, стараясь понять, какая цифра к какой относится. Как искать эти места? Включи «Найти» на три-четыре
пробела. Еще же лучше, потрудись и пролистай бегло весь документ.
Повторяю, перед тем, как идти далее, переведи указанные штуки в таблицы.
И пойдем далее. Будем удалять лишние пробелы.
Не мучайся, удаляя их вручную.
ПРИ РАБОТЕ С *.doc СЛЕДУЕТ КРАЙНЕ ШИРОКО И ТВОРЧЕСКИ ИСПОЛЬЗОВАТЬ ФУНКЦИИ «НАЙТИ - ЗАМЕНИТЬ» (меню «Правка»).
Помни, что в окошки «Найти» и «Заменить» можно вставлять нужное из буфера (за исключением символов типа ?, ? и т.п. Которые «Вставка» - «Символ» или соответствующая кнопка. Это
в Word 97, в 2000-м не знаю, там, вроде функции расширены).
Можно вставлять всякие символы типа тире в окошки «Найти» и «Заменить» (как и в текст) комбинациями клавиш. Можно указывать в окошке полужирный (Ctrl+B), курсив (Ctrl+I) и
подчеркивание (Ctrl+U). Захотел в «Найти» или «Заменить» вернуться после полужирного к обычному шрифту - Shift+Ctrl+Z. Захотел вставить в окошко среднее тире (минус) - это [Ctrl
- (правые серые кнопки)], захотел длинное, обычное тире - это [Shift + Alt - (опять правая серая клавиатура)]. Словом, в «Найти» - «Заменить» почти все как в тексте. Это
быстрее, чем лазить в функции шрифтов в меню внутри вкладки «Найти» и «Заменить».
Вернемся к лишним пробелам. Открой «Найти - Заменить», поставь в «Найти», скажем, пять пробелов, а в «Заменить» - один. Сделай все. Потом четыре пробела на один и т.д. до двух
на один. Вот и ушли лишние пробелы из основного теста.
Но они могут остаться после знака абзаца или до него. Вот так
И во так
Открой в «Найти - Заменить» сначала «Больше», потом «Специальный». Возьми оттуда «Символ абзаца», помести в «Найти». Поставь после него пробел. В «Заменить» поставь просто
абзац. Жми «Заменить». Уйдут пробелы эти
Сотри в «Найти» пробел после абзаца, но поставь пробел перед абзацем. Жми. Уйдут эти
пробелы.
2. Инициалы авторов не должны быть разделены пробелом
Должно быть так: Ф.Н. Ридеров, а не Ф. Н. Ридеров. По-типографски, в журналах, допускается и так и так. Я всю жизнь печатал без пробелов и думаю, что так лучше: тогда инициалы
видно сразу, а если с пробелом, то иногда приходится заострять внимание: бывают ссылки типа: Riderov F.N. J. OCR Recognt. (гипотетический "Journal of OCR Recognition"). Сразу
можешь увидеть, что иначе "J." как бы впутывается в инициалы.
АВЕНТЮРА IV
ДЕФИСЫ И ТИРЕ
Компьютер позволяет легко соблюсти все типографские правила, которые сами типографии не соблюдают (им это труднее).
Дефис (-) ставится, понятно, в словах «что-либо», «два-три» и т.п. Короче, разделяет слова.
Длинное тире ( - ) - это именно тире. Ctrl+Alt вместе с - (тире на правой клавиатуре). Оно всегда должно быть окружено пробелами. За исключением прямой речи (тогда тире после
абзаца:
- Верно? - спросил он.
С левой стороны длинного тире всегда ставят неразрывный пробел: типографщикам режет глаза, если длинное тире переползает на другую строку и гордо встает во главе ее. «Это можно
спутать с прямой речью» - испуганно говорят они. Ты им в ответ: «Но ведь прямая речь начинается с нового абзаца и там есть абзацный отступ, как же спутаешь?» Однако они только
пожимают плечами и стоят на своем. Посему - удовлетвори их. Неразрывный пробел - это либо Shift+Ctrl+пробел, либо «Вставка» - «Символ» - «Специальные символы» (там найдешь).
Лучше, конечно, клавишами.
Ну, а если ты имеешь какой-то текст, где не расставлены неразрывные пробелы? Бери в «Найти» следующую комбинацию: [пробел длинное тире пробел], а в «Заменить» ставь [неразрывный
пробел длинное тире пробел].
Короткое тире, или минус (-). Это [Ctrl вместе с - (тире на правой клавиатуре)]. - (минус) во-первых, конечно, минус, а во-вторых - знак, разделяющий цифры. Он не должен быть
окружен пробелами: 2-3; 1930-1940 гг., IV-III вв. до. н. э.
Обычно даже в академических изданиях тире всюду одно (типографии ленятся), однако можно видеть, что в тексте там оно действительно окружено пробелами, а в местах типа 2-3 и
1950-1960 гг. - нет.
Потом я укажу, как все это легко сделать полуавтоматически.
АВЕНТЮРА V
УСТРАНИ ВСЕ, ЧТО ВОЗМОЖНО, ПОЛУАВТОМАТИЧЕСКИ
В тексте не должно быть ошибок, которые можно устранить полуавтоматически.
Тут - творческий процесс корректора. Проверь следующие места:
Созданные OCR мягкие переносы (концы строк текста книги). Почему-то часто вижу их в сканированных текстах. Не понимаю, почему их не удалили? Чудно это мне.
Сразу удали их, даже если не видишь мягкого переноса (тире со смотрящим вниз концом (Можно поставить его [Ctrl + - (тире обычной, не правой клавиатуры)].
«Найти» - «Больше» - «Специальный» - «Мягкий перенос» (либо вставь в «Найти» клавиатурой, как я только что указал) - «Заменить» (не ставь ничего). Так ты сразу удалишь все
мягкие переносы (заменишь на «ничто»), в изобилие введенные OCR.
Далее. Когда вместо точки перед концом абзаца OCR распознал запятую:
,
Поскольку бывает, что в списках отдельные строчные элементы разделены как раз ,
то ты не удаляй все подобные места из текста автоматически. Сделай только «Найти» (запятая перед знаком абзаца) и просматривай подряд текст. Исправляй где надо вручную (как
правило, подобных ошибок мало), следи за списками.
Аналогично с ;
И тут тоже не только OCR мог заменить двоеточие на точку с запятой, но могут быть и списки. Поступай как в предыдущем случае: «Найти» (точка с запятой перед знаком абзаца) и
просматривай текст, удаляя вручную.
Наконец, перед концом абзаца (где знак абзаца) может быть пропущена точка. Можешь исправить сразу. Проверь текст так: «Найти» (любая буква знак абзаца). Таких мест будет
немного. Расставь там точки вручную.
Замени все короткие тире в тексте на длинные, но в обрамлении пробелов (слева - неразрывный). Вот так: [ - ]. При этом в «Найти» поставь только короткое тире, без пробелов. Ибо
мог ошибиться OCR или корректор, если текст ты взял откуда-нибудь, и вместо длинного тире где-то есть короткое. Могли быть пропущены пробелы.
Однако после подобной процедуры мы получаем в тексте лишние пробелы. Удали их путем замены на один пробел, как указано выше.
И, тем не менее останутся лишние пробелы при прямой речи. Только что внедренные тобою (когда заменял на [ - ]. Однако после знака абзаца, но перед длинным тире (прямая речь),
пробела быть не должно, т.е. не должно быть так:
- Это? - удивился он.
Исправь «Найти» (абзац пробел длинное тире) - «Заменить» (абзац длинное тире).
(Помни, что в «Найти» Word'у все равно, что обычный, что неразрывный пробел (а вот в «Заменить» - нет.)
Но теперь у тебя, к сожалению: а) Короткие тире между цифрами заменены на длинные; б) Эти длинные там к тому же окружены пробелами, так: 2 - 3.
Кроме того, в результате ошибок OCR или предыдущего считывателя между цифрами вместо короткого тире могут оказаться дефисы (2-3). Нехорошо.
Тут приходится поступать сугубо вручную, приходится потрудиться. Включи «Найти» на «Любую цифру» («Найти» - «Больше» - «Специальный» - «Любая цифра») и жарь подряд, заменяя как
(-), так и ( - ) между цифрами на короткое тире без пробелов. Почему так? А потому, что в Word 97 не предусмотрена вставка «Любая цифра» или «Любая буква» в «Заменить» (только в
«Найти»). Может, в Word 2000 такое есть, не знаю (посмотри, если пользуешься).
Наконец, очень частыми ошибками OCR является масса «апострофов» ' в тексте (мусор на бумаге). Запусти «Найти» такие апострофы и просмотри весь текст, удаляя их. Можно также
полуавтоматически устранить мусорные точки и запятые, такие, .например, или ,такие. «Найти» [точка (или запятая) любая буква (или любая цифра)], и - просматривай текст.
Аналогично, наверное, можно удалить и еще какой-нибудь мусор.
АВЕНТЮРА VI
САГА О КАВЫЧКАХ
1. Наиболее приняты в русских текстах русские и французские (типографские специалисты называют их именно «французскими») кавычки-елочки:
Лучше всего сразу установить в «Сервис» - «Автозамена» - «Автоформат при вводе» - «Заменять прямые кавычки парными».
Прямая кавычка, она же знак дюйма, тебе понадобится редко. Придется снять флажок в «Автозамене».
«Кавычки-ёлочки» следует ставить в русской и французской речи.
2. Кавычки внутри кавычек.
Тут нашлись правила только для русского.
Сделай кавычки-лапки (частично понадобятся для английского и немецкого).
Сразу скажу, что все дальнейшее мною выполнялось то в Windows 95, то в Windows 98. Возможно, между ними и есть какие-то различия в установке клавиш для символов, но MS Office
всюду один - 97.
Итак:
Найди во «Вставка» - «Символ» - «Обычный текст» и назначь следующую комбинацию клавиш для символов. (Можешь выделить приведенный мною ниже символ и открыть «Символ»: Word сразу
покажет его в таблице.)
" Открывающаяся лапка, назначь (Alt + Q).
" Закрывающаяся лапка, назначь (Alt + W).
Значит, в тексте, где кавычки внутри кавычек будет так:
«А ты пойдешь в "Асторию"?» - спросил он.
Правда, прямая речь в данном примере может быть представлена и по-другому, причем снова правильно:
- А ты пойдешь в «Асторию»? - спросил он.
3. Английские кавычки
Пишут, что обычно это " и " (верхние «шестерки», дескать, и «девятки»).
Найди во «Вставка» - «Символ» - «Обычный текст» и назначь следующую комбинацию клавиш:
" Английская открывающаяся кавычка - это просто закрывающаяся лапка. См. про нее пункт 2 (Alt + W).
" Английская закрывающаяся кавычка. Назначь простую комбинацию клавиш (Alt + ' (апостроф нижнего английского регистра).
Еще в англоязычной литературе широко применяются апострофы (это я богато видел и вижу сейчас).
'English'.
Можешь найти такие одинарные кавычки в «Символ» (либо клавиша ' английской клавиатуры - русская Э), однако пользоваться не рекомендую: и без того запутанно. Наверное,
целесообразно делать это только когда ставишь в английской речи кавычки внутри кавычек. Разные типографские мастера на своих сайтах пишут, что они, де, употребляют только
двойные английские кавычки. Сами же англичане-американцы в последние годы поголовно любят одинарные (видел богато). Словом, каша. Применяй, друг, двойные английские: думаю, наши
верстальщики знают лучше англичан. Главное, предостерегают все верстальщики, ни в коем случае нигде не ставь наши наиболее распространенные (я всю жизнь ставил) прямые ". Это,
говорят верстальщики в ужасе, знак дюйма. Как будто англичане не сообразят, что столь много дюймов в тексте быть не должно.
И подожди, друг, отдуваться, еще не все.
4. "Немецкие кавычки"
" Открывающаяся немецкая. Видим, что сие - открывающаяся лапка (см. выше пункт 2). Стало быть, у нас (Alt + Q).
" Закрывающаяся немецкая. Это также закрывающаяся английская кавычка (у тебя уже назначено: Alt + ' нижний английский регистр).
Вопрос с кавычками для латыни. Не указали нам этого составители строгих правил. Будем считать наиболее близкими к латинцам не англичан с германцами, а французов. Таким образом,
латынь у нас в «ёлочках», как и русский.
5. Как скорректировать уже имеющийся текст *.doc на предмет «расстановки» правильных кавычек?
Просто: поставь в «Найти» знак «кавычки» русской клавиатуры (клавиша с цифрой 2). В окошке увидишь прямые кавычки ("), но не бойся: кавычки там всегда так отображаются.
Их же поставь в «Заменить» и гони все. Получишь столь любимые типографами ёлочки. Но: в тексте может быть английская, французская или немецкая речь. Мало, но бывает. В одном
детективе я встретил все три. Как ее скорректировать на предмет «правильных» кавычек? Поставь в «Найти» сначала английскую букву "e". Жми и просматривай текст. Узришь и англ., и
фр., и нем. фрагменты. Правь кавычки в англ. и нем. в вручную (французские же правила совпадают с русскими: не тронь). Закончишь, на всякий случай просмотри текст еще на англ.
буквы "a" и "o". Тогда уж точно все вытянешь.
(продолжение - в следующем выпуске)
Готье Неимущий (Gautier Sans Avoir). saus@inbox.ru
Январь 2003 г.
|