Как преобразовать в текст файл PDF или картинку в документах Google: Деление PDF файла на части, Распознавание текста, Перевод с помощью Google Chrome

С помощью одного из приложений Google легко преобразовать графический документ в текстовый. Есть определенные ограничения и рекомендации. Например, текст должен быть хорошо виден и без перекосов, а буквы достаточно крупные. Подробно о рекомендациях здесь.

Как видно, с распознаванием отсканированного текста могут возникнуть проблемы. Но если это текстовый документ, сохраненный в формате PDF, Документы Google его прочитают. В качестве примера возьмем руководство пользователя для принтера в формате PDF на английском языке.

Цель: преобразовать инструкцию в текст, чтобы можно было перевести ее на русский язык силами веб-браузера.

Деление PDF файла на части

Руководства пользователя редко бывают размером до 2 MB. Так и в нашем примере файл весит около 10 MB и его понадобится разделить на 5 частей:

  1. Откройте документ в браузере Google Chrome (меню вызывается через клик правой кнопкой мыши).
  2. В документе всего 129 страниц, следовательно, пятая часть руководства это страницы с 1 по 26. Нажмите кнопку Печать, в разделе Страницы поставьте маркер во вторую строку и задайте область печати с 1-26.
  3. В разделе Принтеры нажмите Изменить и выберите Сохранить как PDF.
  4. В документе 26 страниц, кликните Сохранить, задайте имя файлу и подтвердите команду. Первая часть инструкции получилась размером 1,5 MB.
  5. Аналогичным образом разделите оставшуюся часть документа (страницы 27-52, 53-78 и так далее).

Распознавание текста

  1. Откройте https://drive.google.com/drive/my-drive. Или другой способ, при котором не нужно сохранять ссылку в закладки:
    1. откройте новую страницу браузера Google Chrome,
    2. вызовите меню приложений Google,
    3. зайдите на Диск.
  2. Нажмите Создать / Загрузить файлы, выберите нужный файл и кликните Открыть.
  3. Откройте загруженный файл (в правом нижнем углу).
  4. Выберите Открыть с помощью Google Документов.
  5. Результат:
    1. Белые буквы на синем фоне и логотип производителя (стилизованный шрифт) не прошли.
    2. Оглавление — есть проблемы с форматированием.
    3. Текст распознан, получилось 36 страниц.

Перевод с помощью Google Chrome

    1. Сохранить файл себе на компьютер можно в разных форматах. Для нашей цели лучше всего подойдет HTLM.
    2. Согласно предупреждению файл скачался в архиве ZIP.
    3.  Откройте папку (двойным кликом) и запустите файл в формате HTML (тоже двойным кликом).
    4. Для перевода нажмите значок в строке поиска справа. Если такой не появился кликните по странице правой кнопкой мыши и выберите Перевести на русский.
    5. Цель достигнута.

Понравилась статья? Поделись с друзьями!
Рейтинг:
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (3 оценок, среднее: 5,00 из 5)
Загрузка...
Добавить комментарий

Ваш e-mail не будет опубликован.