Публикация Школы траблшутеров

Как довести текст до безошибочного состояния

Время чтения: 10 мин 15 сек
28 февраля 2025 г. Просмотров: 82

Microsoft WordКопирайтинг | Олег Брагинский, Максим Мухтаров

Основатель «Школы траблшутеров» Олег Брагинский и ученик Максим Мухтаров приоткрывают завесу над процессом разработки и использования макроса, поддерживающего массовые операции над огрехами. Пусть досадные ляпы больше не отвлекают подчёркиванием.

При загрузке в редактор книги «Взламывая код Брагинского. Часть 1» Microsoft 365 определил наличие ошибок (1): 185 орфографических, 4 грамматических, 12 официозных и 2 прочих. Воспользовавшись советами Word, исправили некоторую часть некорректностей и сохранили файл.

Повторное открытие документа не привело к отображению уменьшенного количества огрех, т. к. напрочь «забыло» отмену разметки пропущенных блоков (2). Для чистоты эксперимента научились устанавливать язык текста до русского (4), сбрасывать проверку орфографии и грамматики (5).

Пришлось создать кнопку «Английские все» для смены языка слов, состоящих из латинских букв (6), что мгновенно уменьшило количество оставшихся орфографических ошибок с 68 до 3 (3’-3’’):

Чтобы не рыскать по двум сотням страниц книги, разработали вынос ошибок (7’) в отдельный файл. Заметили повторы огрех, поэтому запрограммировали макрос на построение таблицы в Excel, предусмотрев столбцы ляпов (9) со встречаемостью (10), длиной (11) и адресами в тексте (12).

Добавили кнопку «Дополнить Пропускатор» (8), формируя словарь пропускаемых строк. Теперь вместо множества ошибок Word получит меньше последовательных команд на многократную простановку признака «не проверять» согласно предварительно собранного списка диапазонов:

Но обо всём по порядку! Сразу после «Выноса» (7) получим таблицу в Excel, представленную выше. Теперь нажимаем «Пропускатор Орф» (13), на ленте офиса появляется окно с кнопками «После выноса» и «По словарю». Выбираем первый режим (15), который отрабатывает за три секунды (17).

Операцию можно повторять после добавления или редактирования текста: ранее пропущенные слова подчёркиваться уже не будут, а новые «После выноса» добавятся в таблицу диапазонов.

Если суть происходящего неочевидна, поясним: 185 операций пропуска просмотренных глазами ошибок в Word займут 395 секунд, т. е. в 130 раз медленнее. И это ещё не всё! Как вы помните, Microsoft 365 забывает о разрешённых ляпах после повторного открытия файла. Мы это исправим!

Текущий текст получил оценку редактора в 99% (14). Повторная процедура пропуска способна убирать «незамеченные» орфографические ошибки: остаются из-за того, что Word не успевает проверить файл в реальном времени. Перед запуском Пропускатора будем выжидать пару минут:

Проверенные глазами орфографические ошибки, кнопкой «Дополнить Пропускатор» (8), переносим в постоянный словарь (следующий лист Excel), чтобы позже регулярно добиваться от Word отказа от подчёркивания текста красными волнистыми линиями во всех наших последующих текстах:

Пришла пора бороться с мозолящими глаза грамматическими неоднозначностями: полагаем, что огрех нет, но Microsoft 365 настойчиво и услужливо требует ревизии после каждого открытия файла.

Выносим грамматические ошибки соответствующим режимом (7’’), затем нажимаем кнопку «Пропускатор Грм» (18) и 18 диапазонов отрабатывается за четыре секунды (19). Word упорно не желает признавать безгрешность текста, поэтому снимем копию экрана ещё раз немного позже:

В Excel создаём третий лист, куда выносим фразы, которые Word пытается подчёркивать голубой волнистой линией. По аналогии с орфографическими ошибками для грамматических предусмотрели повторяемость, а также сохранение адресных диапазонов для ускорения операции:

Вероятность повтора грамматических ошибок полагаем низкой, но для больших книг, типа Теоретикума и Практикума, содержащих тысячи страниц и миллионы символов, не нулевой.

Отработав технологию на одном файле, задумались: можно же постепенно накопить собственный список новояза и жаргонизмов без задействования словаря Microsoft 365. Преимущества видели такие: проверка ошибок остаётся строгой, а файл Excel легко переносить между компьютерами.

Как и обещали, снимаем копию экрана, на которой видно, что путём описанных манипуляций смогли-таки добиться «безгрешного» качества в части орфографии и грамматики (20):

Решили избавиться от выноса ошибок в отдельный Word, т. к. сводная таблица Excel содержит меньше строк, нивелируя повторяемость. Самое время перейти к проверке второго файла, чтобы понять, насколько полезен наработанный словарь и будет ли простым в дополнении, как задумали.

Загрузили в редактор книгу «Взламывая код Брагинского. Часть 2» Microsoft 365 определил наличие ошибок (21): 224 орфографических, 5 грамматических, 15 официозных, 2 геополитических. По привычной схеме проверяем количество огрех (22), помогая Word быстрее провести подсчёт.

Принудительно выставляем всему тексту документа язык русский (24), сбрасываем счётчики орфографических и грамматических ошибок (25), строки из латинских символов признаём английскими (26), добиваемся снижения количества ошибочно помеченных слов с 90 до 1 (23’-23’’).

Далее пойдёт более промышленный формат работы, в отличие от того, что делали с первой книгой. Вместо поиска орфографических ошибок и построения сводной таблицы в Excel для начала проверим, можно ли пропустить слова, накопленные из предыдущего документа в текущем файле.

Находим 137 орфографических ошибок по словарю (30), сгруппированных в 90 диапазонов, пропуск которых за шесть секунд позволяет снизить количество ляпов с 224 до 105 или на 53%. Подобного результата добиться стандартными средствами Word нам удалось… затратив целых 276 секунд.

Приступаем ко второму этапу, вынося орфографические ошибки (27’) в таблицу Excel. Процедура занимает 21 секунду, обнаруживая новые 100 типов огрех. Нажимаем кнопку «После выноса» (29), после чего обнаруживаем правку 90 типов строк за шесть секунд. Рой ошибок падает до 105 (28’):

На первом Excel получаем новый список дополнительных орфографических ошибок: отсутствовали в первой книге, но нашлись во второй. Привычно нажимаем кнопку «Дополнить пропускатор» (29) и на втором листе получаем уточнённый словарь, способный отлично корректировать уже две книги.

Третьим этапом выносим грамматические ошибки на третий лист Excel. Накопление срок не создаём: вероятность того, что употребляем схожие конструкции с ляпами в препинании мала.

Заметно, что после пропуска по словарю первой книги, список ошибок во второй стал существенно меньше и проверяется быстрее:

При объединении словарей перестраиваем сводную таблицу, чтобы наиболее частотные огрехи пропускались в первую очередь. Таким образом, не только уменьшаем общее количество ошибок, упрощая работу трудолюбивому Word, но и ускоряем завершение фонового процесса проверки.

Оптимальный способ истребления ошибок кажется найденным, ведь уже второй файл признаётся свободным от ляпов (30). Немедля приступаем к работе над третьим текстом, ожидая замедления проверок по словарю, с одновременным ускорением выноса и правок после построения таблиц.

В третьей книге обнаруживаем 353 орфографических и 9 грамматических (31) огрех. Пропуском по словарю за 148 суммарных секунд обезвреживаем 353 диапазона (32), содержащих 235 ляпов (33).

 

После проверки грамматических ошибок получаем текст, близкий к идеальному (34):

Четвёртая книга не завершена текстом и форматированием, но для эксперимента сгодится: содержит 378 ляпов первого и 97 второго типов (35):

Пропуск по словарю 216 некорректно написанных слов длится впечатляющую секунду:

Вынос оставшихся 243 ляпов длится ровно минуту, пропуск 188 диапазонов – ещё пять:

Подобная пунктуационная процедура обрабатывает 68 фраз за две секунды:

Итогом в очередной раз становится текст, напрочь лишённых искомых ошибок, традиционно набирающий 99% качества (38):

Подведём итоги работы над ошибками: четыре книги на старте содержали 1’253 огрехи. Сборкой в единый орфографический словарь мы стали способны «одной кнопкой» исправлять 1’140 ляпов, что составляет 90,1% проблем. Ещё 113 неточностей или 9,0% устраняются «второй кнопкой»:

С точки зрения временны́х характеристик, даже не используя накопительный орфографический словарь, вынос и пропуск обеих типов ошибок суммарно займёт девять с половиной минут.

Применение кумулятивного списка коррекционных строк ускорит процедуру до четырёх минут и семи секунд, что не выглядит эффектным, пока не перейдём к книге «1001 история траблшутера», состоящей из тысячи глав, насчитывающей 5’700 страниц, вмещающей 7,3 млн знаков.

Несмотря на то, что для обработанных книг накопили количество диапазонов орфографических ошибок равное 464 …

… размер кумулятивного орфографического словаря, из-за повторяющихся значений в финале эксперимента составил 419 строк. И вместо ожидаемых 1’140 операций группового пропуска, их произойдёт 890. Всё логично: больше обработаем текстов – быстрее сможем править в них ляпы.

В завершение хочется традиционно подчеркнуть, что на все описанные работы затратили ровно десять дней, программируя между делом: успевая работать, тренироваться и уделять время семье.

Ищите интересные вызовы, обнаруживайте нестандартные решения и не думайте, что всё на этой планете уже создано. Надеюсь, в очередной раз показали, насколько нестандартны бывают траблшутеры, задумавшие автоматизировать объёмный, но рутинный труд. Вдохновенья и удачи!