(16 группа) Тема: «Программы-переводчики. Возможности систем распознавания текстов»

урок по дисциплине информатика

Тема: «Программы-переводчики. Возможности систем распознавания текстов»

скаачать Презентацию Microsoft Office PowerPoint

скачать конспект

скачать практическое задание

Цель работы: получить навыки работы с программами-переводчиками, OCR программами и онлайн-сервисами

Оборудование и программное обеспечение: персональный компьютер (монитор, системный блок, клавиатура, мышь) с выходом в Интернет, текстовый процессор

Актуализация знаний.

Знание хотя бы одного иностранного языка необходимо сегодня всем, как воздух. В особенности пользователям: ведь избежать столкновения с английским языком при работе на компьютере, увы, невозможно. Ладно, если бы дело касалось только файлов с документацией к программам (которые у нас традиционно никто не читает) или названий программных меню (ориентироваться в которых можно научиться и без знания языка, методом научного тыка и зубрежки).

Плохо, если вы не знаете иностранного языка… Однако горю вашему — отчасти — можно помочь, установив на компьютер одну из специализированных программ-переводчиков.

На этом уроке мы научимся работать с одной из таких программ — переводчиков.

III. Теоретическая часть.

1.Компьютерные словари.

Словари необходимы для перевода текстов с одного языка на другой. Первые словари были созданы около 5 тысяч лет назад в Шумере и представляли собой глиняные таблички, разделенные на две части. В одной части записывалось слово на шумерском языке, а в другой — аналогичное по значению слово на другом языке, иногда с краткими пояснениями.

Современные словари построены по такому же принципу. В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и так далее), причем каждый из них может содержать десятки тысяч слов. В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц, где поиск нужного слова является достаточно трудоемким процессом.

Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словочетаний, а также предоставляют пользователю дополнительные возможности.

Во-первых, компьютерные словари могут являться многоязычными, так как дают пользователю возможность выбрать языки и направление перевода (например, англо-русский, испано-русский и так далее).

Во-вторых, компьютерные словари могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.).

В-третьих, компьютерные словари обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др.

В-четвертых, компьютерные словари могут являться мультимедийными, то есть предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка.

2.Системы машинного перевода.

Происходящая в настоящее время глобализация нашего мира приводит к необходимости обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках.

В этих условиях использование традиционной технологии перевода «вручную» тормозит развитие межнациональных контактов. Перевод многостраничной документации вручную требует длительного времени и высокой оплаты труда переводчиков. Перевод полученного по электронной почте письма или просматриваемой в браузере Web-страницы необходимо осуществить немедленно, и нет возможности и времени пригласить переводчика.

Системы машинного перевода позволяют решить эти проблемы. Они, с одной стороны, способны переводить многостраничные документы с высокой скоростью (одна страница в секунду) и, с другой стороны, переводить Web-страницы «на лету», в режиме реального времени. Лучшими среди российских систем машинного перевода считаются PROMT и «Сократ».

Системы машинного перевода осуществляют перевод текстов, основываясь на формальном «знании» языка (синтаксиса языка — правил построения предложений, правил словообразования) и использовании словарей. Программа-переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке.

Современные системы машинного перевода позволяют достаточно качественно переводить техническую документацию, деловую переписку и другие специализированные тексты. Однако они неприменимы для перевода художественных произведений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека.

Достоинства программ-переводчиков

  • наличие словарей по специальностям, мгновенный поиск, расположение в несколько окон, возможность одновременного обзора нескольких вариантов перевода;
  • возможность создания собственного словаря пользователя;
  • подключение к текстовому редактору Microsoft Office, что позволяет, не отрываясь от оригинала и его перевода, выбирать подходящие соответствия для перевода;
  • возможность перевода с разных языков;
  • компактность, наличие практически неограниченного объема информации в компьютере;
  • быстрота поиска.

Недостатки программ-переводчиков

  • ограниченность обзора, обусловленное размерами экрана, раскрытый большой словарь позволяет увидеть сразу гораздо большее количество значений слова, особенно если оно имеет много значений;
  • словари-переводчики не соблюдают правила грамматики, стилистики и лексики, не учитывают игру слов, художественные приемы;
  • чаще всего текстовые переводчики выбирают одно из значений многозначного слова, которое может не соответствовать контексту;
  • при отсутствии слова в словаре не переводят его;
  • электронные словари-переводчики часто выдают несколько вариантов перевода слова на другой язык, не объясняя разницы в тех или иных словарных соответствиях, что затрудняет правильный выбор того или иного соответствия в данном контексте.

 

3.Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат.

После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.
Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации символов.
Подобные системы назывались OCR (Optical Character Recognition — оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход. Естественно приходилось сталкиваться с произвольным и, тем более, сложным шрифтом, программы такого рода начинали давать серьезные сбои.
Современные научные достижения в области распознавания образов буквально перевернули представление об оптическом распознавании символов. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.
Поскольку потребность в распознавании текста отсканированных документов достаточно велика, неудивительно, что имеется зна­чительное число программ, предназначенных для этой цели. Так как разные научные методы распознавания текста развивались независимо друг от друга, многие из этих программ используют совершенно разные алгоритмы.
Эти алгоритмы могут давать разные результаты на разных документах. Например, упоминавшиеся выше системы OCR способны распознавать только стандартный специально подготовленный шрифт и дают на этом шрифте наилучшие результаты, которые не может превзойти ни одна, из более универсальных программ.
Современные алгоритмы распознавания текста не ориентируются ни на конкретный шрифт, ни на конкретный алфавит. Большинство программ способно распознавать текст на нескольких языках. Одни и те же алгоритмы можно использовать для распознавания русского, латинского, арабского и других алфавитов и даже смешанных текстов. Разумеется, программа должна знать, о каком алфавите идет речь.
Нас, прежде всего, интересуют программы, способные распозна­вать текст, напечатанный на русском языке. Такие программы выпускаются отечественными производителями. Наиболее широко известна и распространена программа FineReader.

Наиболее распространенные системы оптического распознавания символов: (Слайд 8) FineReader, CuneiForm, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

Программа FineReader выпускается отечественной компанией ABBYY Software (www.bitsoft.ru). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных текстов.
Она позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов. Она позволяет редактировать распознанный текст и проверять его орфографию.

CuneiForm — это программа для оптического распознавания текста документов, представленных в виде изображений, в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах, сохранять в популярных форматах, проводить по ним полнотекстовый поиск.


ABBYY FineReader Professional 11.0.513.139-
Профессиональная программа для оптического распознавания текста.

ABBYY PDF Transformer 3.0 —Универсальное решение для преобразования документов PDF с возможностью оптического распознавания текста.

4.Практическая работа.

Автор публикации

не в сети 1 месяц

Усманов Ахмед

0
Комментарии: 0Публикации: 60Регистрация: 23-12-2019

(16 группа) Тема: «Программы-переводчики. Возможности систем распознавания текстов»: 21 комментарий

  1. I precisely had to appreciate you all over again. I’m not certain the things I might have done in the absence of the actual ideas documented by you directly on such field. It became a real difficult condition for me personally, but discovering a new professional form you managed it forced me to jump for delight. I’m just happier for the guidance and even have high hopes you find out what a powerful job you’re doing instructing most people through your blog. I am sure you’ve never encountered all of us.

Добавить комментарий

Ваш адрес email не будет опубликован.