С помощью одного из приложений Google легко преобразовать графический документ в текстовый. Есть определенные ограничения и рекомендации. Например, текст должен быть хорошо виден и без перекосов, а буквы достаточно крупные. Подробно о рекомендациях здесь.
Как видно, с распознаванием отсканированного текста могут возникнуть проблемы. Но если это текстовый документ, сохраненный в формате PDF, Документы Google его прочитают. В качестве примера возьмем руководство пользователя для принтера в формате PDF на английском языке.
Цель: преобразовать инструкцию в текст, чтобы можно было перевести ее на русский язык силами веб-браузера.
Деление PDF файла на части
Руководства пользователя редко бывают размером до 2 MB. Так и в нашем примере файл весит около 10 MB и его понадобится разделить на 5 частей:
- Откройте документ в браузере Google Chrome (меню вызывается через клик правой кнопкой мыши).
- В документе всего 129 страниц, следовательно, пятая часть руководства это страницы с 1 по 26. Нажмите кнопку Печать, в разделе Страницы поставьте маркер во вторую строку и задайте область печати с 1-26.
- В разделе Принтеры нажмите Изменить и выберите Сохранить как PDF.
- В документе 26 страниц, кликните Сохранить, задайте имя файлу и подтвердите команду. Первая часть инструкции получилась размером 1,5 MB.
- Аналогичным образом разделите оставшуюся часть документа (страницы 27-52, 53-78 и так далее).
Распознавание текста
- Откройте https://drive.google.com/drive/my-drive. Или другой способ, при котором не нужно сохранять ссылку в закладки:
- откройте новую страницу браузера Google Chrome,
- вызовите меню приложений Google,
- зайдите на Диск.
- Нажмите Создать / Загрузить файлы, выберите нужный файл и кликните Открыть.
- Откройте загруженный файл (в правом нижнем углу).
- Выберите Открыть с помощью Google Документов.
- Результат:
- Белые буквы на синем фоне и логотип производителя (стилизованный шрифт) не прошли.
- Оглавление — есть проблемы с форматированием.
- Текст распознан, получилось 36 страниц.
Перевод с помощью Google Chrome
- Сохранить файл себе на компьютер можно в разных форматах. Для нашей цели лучше всего подойдет HTLM.
- Согласно предупреждению файл скачался в архиве ZIP.
- Откройте папку (двойным кликом) и запустите файл в формате HTML (тоже двойным кликом).
- Для перевода нажмите значок в строке поиска справа. Если такой не появился кликните по странице правой кнопкой мыши и выберите Перевести на русский.
- Цель достигнута.