История и опыт использования машинного перевода. Кому и зачем нужен машинный перевод

Обзор продуктов

С возникновением письменности люди получили мощный инструмент для сохранения знаний и для коммуникации. Первые письмена, дошедшие до нас на стенах храмов и гробниц, повествуют о деяниях царей и полководцев, происшедших много веков назад. Кроме того, люди записывали результаты хозяйственной деятельности, для того чтобы успешно торговать, собирать налоги и т.д.

Чтобы облегчить письменное общение между народами были созданы первые словари. Один из таких словарей был написан шумерскими жрецами на глиняных табличках. Каждая табличка была поделена на две равные части. С одной стороны записывалось шумерское слово, а с другой - аналогичное по значению слово на другом языке, иногда с кратким пояснением. С тех времен до наших дней структура словарей практически не изменилась.

С появлением персонального компьютера стали создаваться электронные словари, облегчившие поиск нужного слова и предложившие множество новых полезных функций (озвучивание слова, поиск синонимов и т.д.).

Технология машинного перевода постепенно совершенствовалась. И если качество и скорость перевода первых систем оставляли желать лучшего, то теперь компьютер действительно может связно переводить текст с одного языка на другой. А более современные системы с приемлемым качеством переводят 1 страницу текста за 1 секунду.

Кому и зачем нужен машинный перевод

В последнее время активно обсуждаются возможности и перспективы технологий машинного перевода (MП). В дискуссиях принимают участие как профессиональные переводчики, так и производители систем МП. Попробуем оценить возможности МП, опираясь на опыт применения реальных систем.

Справедливости ради следует отметить, что в обозримом будущем машинная технология не сможет полностью заменить переводчика-человека. По качеству перевода программы МП не смогут состязаться с человеком. Однако с помощью подобных программ можно существенно повысить эффективность труда переводчика.

Основываясь на формальном описании языков, программа анализирует текст на одном языке, а затем синтезирует фразу на другом. Алгоритмы анализа и синтеза, как правило, довольно сложны и управляются словарной информацией, приписанной лексическим единицам в словарях системы как для языка исходного текста, так и для языка его перевода.

Где же находят применение системы МП? Во-первых, программы-переводчики могут быть использованы для быстрого перевода текста в целях понимания его смысла. Конечно, по качеству машинный перевод не может сравниться с переводом, сделанным человеком, но зато пользователь получает ответ «здесь и сейчас». Кроме того, с помощью систем МП можно читать информацию, размещенную на зарубежных сайтах, а также понять текст присланного письма, написанного на французском, немецком, японском или ином языке.

Помимо этого системы МП могут быть использованы для решения задач профессионального перевода и значительно повысить эффективность работ. Сравним оба способа - традиционный и машинный. Традиционный перевод обычно включает несколько этапов: перевод, редакторская правка, верстка, корректура. При этом в целях ускорения перевод, как правило, выполняют несколько переводчиков. Вследствие этого возникает проблема единой терминологии и единого стиля перевода, что увеличивает затраты на редакторскую правку. Кроме того, значительные усилия приходится тратить на переверстку документа.

Что дает применение систем МП и где оно наиболее целесообразно? Системы МП, используя для перевода общую словарную базу, в значительной степени минимизируют затраты на поддержание единой терминологии, а следовательно, на редакторскую правку. При этом технический редактор получает от системы МП перевод, выполненный в едином стиле. Таким образом, использование систем машинного перевода наиболее эффективно для организации технологического процесса по переводу больших массивов однотипных документов в сжатые сроки с обеспечением единства терминологии и стиля по всему массиву документов.

Возможность применения системы МП определяется ее способностью адаптироваться к переводу документов различной тематики. Качество получаемого перевода в значительной степени зависит от настройки. Помимо общелексического словаря должны использоваться специализированные словари, отражающие как тематику перевода, так и специфику конкретных документов. Кроме того, качество переводов зависит от возможности создания переводчиком собственных пользовательских словарей, которые должны включать терминологию, характерную для данной документации, а также часто встречающиеся обороты/фразы/выражения (микросегменты), перевод которых не может быть формальным. Подобная настройка гарантирует качество, при котором применение МП становится эффективным для решения задач «промышленного» перевода.

Для оценки эффективности использования систем МП компания ПРОМТ предоставила свою систему PROMT 2000 Translation Office центру переводов ЛОНИИС. Эксперимент показал, что использование МП позволяет сократить суммарное время выполнения проекта примерно в 2 раза.

Следует отметить и ряд ограничений на использование систем МП. Не имеет смысла переводить с помощью программы-переводчика художественные тексты, пословицы и поговорки. Небольшие по объему тексты различной тематики также лучше переводить традиционным способом.

PROMT Translation Office 2000

PROMT Translation Office 2000 (далее - PROMT) ценой 300 долл. - это набор профессиональных инструментов, обеспечивающий перевод с основных европейских языков на русский и обратно. С его помощью можно не только переводить, но и редактировать перевод и работать со словарями всех языковых направлений одновременно.

В PROMT входят следующие коллекции словарей:

  • «Легкая промышленность» (180 долл.);
  • «Тяжелая промышленность» (180 долл.);
  • «Коммерция» (99 долл.);
  • «Наука» (120 долл.);
  • «Техника» (199 долл.).

Для обеспечения высокого качества перевода в системе PROMT предусмотрена возможность настройки на перевод конкретного текста - посредством подключения специализированных предметных словарей, поставляемых отдельно, а также создания собственных пользовательских словарей. Удобным средством настройки системы является также возможность выбора тематики документа: какие словари подключать, какие слова оставить без перевода и как обрабатывать специальные конструкции типа электронного адреса, даты и времени.

Система PROMT включает следующие модули:

  • PROMT- профессиональная среда для перевода;
  • Dictionary Editor - средство для пополнения и редактирования словарей систем машинного перевода семейства PROMT;
  • PROMT Electronic Dictionary - электронный словарь, предоставляющий пользователю широкие возможности доступа к лексико-грамматической информации, собранной в специализированных словарях семейства PROMT. Может быть использован при любой работе с текстами (например, для быстрого получения информации о переводных эквивалентах данного слова или словосочетания);
  • WebView - браузер, позволяющий получить синхронный перевод HTML-страниц при навигации в Интернете. WebView содержит два окна для отображения HTML-страниц: верхнее отображает исходную страницу, полученную из Интернета, нижнее - ее перевод с сохранением ссылок, картинок, вставленных объектов и т.д. Осуществлять переход по ссылкам можно как в верхнем окне, содержащем исходный текст, так и в нижнем, содержащем перевод;
  • SmarTool - инструмент, реализующий функции перевода в приложениях Microsoft Office 97 (Word, Excel) и Microsoft Office 2000 (Word, Excel, PowerPoint, FrontPage, Outlook). Меню и инструментальная панель перевода встраиваются во все основные приложения Microsoft Office 2000 и Microsoft Office 97, что позволяет получить перевод открытого документа непосредственно в этих приложениях;
  • QTrans - программа, предназначенная для быстрого перевода неформатированного текста. С ее помощью можно легко и быстро перевести текст, текстовый файл или буфер обмена (Clipboard). Для улучшения качества перевода можно выбрать подходящую тематику, подключить специализированные словари и зарезервировать слова;
  • Clipboard Translator - программа, предназначенная для быстрого перевода текста, предварительно скопированного в буфер обмена. Текст может быть скопирован из любого Windows-приложения (Help, Notepad, Word, Word Perfect, PageMaker и др.);
  • «Интегратор» - средство доступа ко всем приложениям пакета.

Перевод документа в системе PROMT

Меткой отмечен текущий абзац исходного текста и перевод этого абзаца (текущим из них является тот, в котором в данный момент установлен курсор).

Все документы, с которыми работает программа PROMT, появляются в окнах документов. Одновременно могут быть открыты несколько документов - каждый в своем окне (рис. 4 , ).

Выполненный перевод можно уточнить, воспользовавшись электронными словарями, разработанными другими фирмами (если они, конечно, установлены на вашем компьютере). Могут быть использованы электронные словари:

  • Lingvo 6.0 (программа фирмы ABBYY);
  • «Контекст 3.0» (программа фирмы «Информатик»);
  • «МультиЛекс 1.0, 2.0, 3.0» (программа фирмы «МедиаЛингва»);
  • PROMT Electronic Dictionary 1.0 (программа фирмы ПРОМТ).

При переводе система PROMT не использует электронные словари других производителей. Поэтому, если какого-либо слова нет в словарях системы PROMT или вас не устраивает перевод какого-либо слова или словосочетания, можно вызвать электронный словарь и воспользоваться им как справочным.

Для перевода HTML-документов в комплект поставки входит браузер WebView.

Последовательность действий при выполнении перевода

  1. Откройте файл с исходным текстом или создайте новый документ (новый текст можно набрать непосредственно в окне PROMT).
  2. Проверьте разбивку текста на абзацы (после перевода форматирование по абзацам сохранится).
  3. Проверьте орфографию и отредактируйте исходный текст, если это необходимо.
  4. Выберите шаблон тематики, подходящий для перевода данного текста (шаблон тематики для данного направления перевода - это набор словарей и список зарезервированных слов; он устанавливается для повышения качества перевода).
  5. Уточните тематику документа, настроив ее компоненты:
    • подключите словари, которые будут использоваться при переводе текста. Если не подключен ни один словарь, при переводе будет использоваться только общелексический генеральный словарь;
    • зарезервируйте слова, которые в тексте перевода должны оставаться на языке исходного текста;
    • подключите препроцессор, если хотите отменить перевод некоторых конструкций, например адресов электронной почты, имен файлов, а также выбрать форму представления даты и времени в тексте перевода;
    • отметьте абзацы, не требующие перевода.
  6. Переведите текст (сразу весь документ или по абзацам).
  7. Введите незнакомые слова в свой пользовательский словарь, если хотите, чтобы они в дальнейшем переводились.
  8. Воспользуйтесь электронным словарем для уточнения значений слов.
  9. Сохраните результаты перевода.

Системные требования

  • IBM PC-совместимый компьютер с процессором P166 или выше;
  • 32 Мбайт оперативной памяти;
  • примерно 160 Мбайт на жестком диске (для системы со всеми компонентами);
  • видеоадаптер SVGA или лучшего разрешения;
  • устройство для чтения компакт-дисков CD-ROM (для инсталляции);
  • мышь или совместимое устройство;
  • ОС: Windows 98 (русская версия или панъевропейская с поддержкой русского языка и русскими региональными установками), или Windows NT 4.0 SP3 (или выше) с поддержкой русского языка и русскими региональными установками, или Windows 2000 Professional (с поддержкой русского языка и русскими региональными установками);
  • Microsoft Internet Explorer 5.x (входит в поставку).
  • IBM PC-совместимый компьютер с процессором PII-300 или выше;
  • 64 Мбайт оперативной памяти

Перевод документа в системе «Сократ Персональный»

Вид главного окна программы показан на рис. 6 .

При первом запуске основное окно программы по умолчанию открывается на закладке «Переводчик». Перевод текста, набранного в окне программы: набрав текст в верхнем окне закладки «Переводчик» и нажав кнопку кнопку «Перевести» на панели инструментов или в меню «Перевод», в нижнем окне закладки вы получите перевод текста.

Для того чтобы воспользоваться словарем (рис. 7), достаточно щелкнуть мышью на соответствующей закладке. Кроме того, окно словаря может быть вызвано при помощи горячих клавиш.

С помощью словаря вы можете получить перевод искомого слова следующими способами:

  • набрать слово в поле ввода, расположенном в верхнем правом окне словаря. Перемещение по словарной базе осуществляется по мере ввода букв, до тех пор пока не будет получено максимально возможное совпадение;
  • вставить слово в поле ввода из буфера обмена. В этом случае будет осуществлен быстрый переход к слову, максимально совпадающему с введенным;
  • выбрать ранее переведенное слово из окна истории поля ввода, после чего будет осуществлен быстрый переход к тому слову, которое имеет максимально возможное совпадение с введенным;
  • выделить слово в другом приложении и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Во всплывающем окне появится перевод выделенного слова;
  • использовать сочетание горячих клавиш, предварительно поместив необходимое слово в буфер обмена.

Перевод слов или текста из других приложений

В системе «Сократ Персональный 4.0» предусмотрена возможность работы с переводчиком и словарем в других приложениях без выхода из них. Перевод осуществляется во всплывающем окне.

Для того чтобы получить перевод текста из другого приложения (например, текстового редактора), необходимо выделить подлежащий переводу текст и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появится всплывающее окно, содержащее перевод выделенного фрагмента.

Для того чтобы получить перевод слова из другого приложения, необходимо выделить интересующее вас слово и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появившееся всплывающее окно будет содержать перевод выделенного слова.

При необходимости из этого окна можно перейти непосредственно на закладку «Словарь», воспользовавшись гиперссылкой всплывающего окна.

Системные требования

Минимальная конфигурация компьютера:

  • IBM PC-совместимый компьютер с процессором Pentium 90 или выше;
  • Операционная система Windows 98/Me или Windows NT/2000;
  • 32 Мбайт оперативной памяти;
  • 16 Мбайт свободного места на жестком диске.

Результаты тестирования PROMT Translation Office 2000 и «Сократ Персональный 4.0»

Для сравнения качества и скорости перевода двух систем были выбраны несколько фрагментов текстов на русском и английском языках: отдельные фразы, новости от компаний, отрывки из Библии, «законы Мерфи», технический, медицинский, юридический тексты. Оценки выставлялись по 10-балльной шкале. После этого было проведено сравнение результатов перевода с английского языка на русский и наоборот (табл. 1).

Следует отметить, что PROMT Translation Office 2000 и «Сократ Персональный 4.0» - продукты, предназначенные для решения разных задач. PROMT Translation Office 2000 - это профессиональная система МП, с помощью которой гораздо эффективнее переводить большие объемы информации. Кроме того, в системе PROMT грамотно реализованы грамматические правила того или иного языка. Поэтому качество перевода весьма высокое. Недостатками системы PROMT являются высокие требования к аппаратным ресурсам и значительное время перевода при подключении нескольких дополнительных словарей.

«Сократ Персональный 4.0» - это система автоматического перевода, которая помогает быстро и легко получить перевод непонятной фразы или термина. Ее основное назначение - быть всегда под рукой.

Перевести с помощью «Сократ Персональный 4.0» короткое письмо или фразу из текста гораздо проще и быстрее, чем с помощью системы PROMT. Однако для перевода большого объема текста целесообразно воспользоваться PROMT Translation Office 2000.

Lingvo 7.0

Lingvo 7.0 - это мощный профессиональный словарь, очень удобный для пользователя. Нажмите горячую клавишу в любом Windows-приложении - и на экране появится самый полный перевод слова из всех словарей, подключенных к системе. Грамматические комментарии на любое слово, озвучивание наиболее важных слов, проверка правильности написания, возможность создания собственных словарей - всё это предлагает ABBYY Lingvo 7.0 (рис. 9). Lingvo 7.0 содержит более 1,2 млн. слов и словосочетаний в 18 общих и специализированных словарях.

При запуске Lingvo на экране появляется главное окно (рис. 10). В строке ввода пользователь может набрать нужное слово. По мере набора программа будет искать наиболее подходящее слово. Нажав клавишу ввода или пиктограммку «Перевести текст», пользователь увидит окно карточки, в которой находится словарная статья выбранного (найденного при поиске) слова (рис. 11).

Если вы читаете справочный раздел какой-либо программы, работаете с текстовым редактором, браузером или любым другим Windows-приложением, выделите слово или несколько слов в тексте и нажмите клавиши Ctrl+Ins+Ins. Или просто перетащите (drag-and-drop) слово в строку ввода. При этом активизируется главное окно Lingvo и откроется карточка с переводом выделенного слова. Если таких карточек много, появится окно «Перевод», содержащее слова и словосочетания из запроса.

Для того чтобы вставить перевод в редактируемый текст, выделите перевод в карточке и нажмите Ctrl+Ins. Переключитесь на окно текстового редактора и проделайте операцию «Вставить». Также можно перетащить перевод на окно вашего текстового редактора.

При переводе с английского языка на русский не всегда очевидно, имеем мы дело со словами, которые можно переводить независимо, или со словосочетанием, которое переводится как целое. В решении этой проблемы помогает функция «Перевести текст из строки», позволяющая найти в переводимом фрагменте устойчивые словосочетания, для которых есть отдельные словарные статьи. Оставшиеся непереведенными фрагменты можно попытаться отыскать в примерах с помощью функции полнотекстового поиска, устанавливая нужные опции (и/или, с учетом порядка или без учета и т.д.)

При переводе с русского языка на английский выделение сочетаний и грамматических конструкций не представляет труда, и если данных сочетаний нет в словаре, можно сразу же обратиться к функции полнотекстового поиска. Результаты поиска позволяют оценить, как переводится интересующее вас выражение в реальных примерах.

Основные особенности Lingvo:

  • перевод 1,2 млн. слов и словосочетаний;
  • 18 общих и специализированных словарей (2 медицинских и 2 юридических словаря в Lingvo 7.0 - новые);
  • современная лексика;
  • вызов словаря из любого Windows-приложения;
  • совершенная система поиска;
  • 5 тыс. английских слов озвучено диктором из Оксфорда;
  • возможность создания собственных пользовательских словарей;
  • 23 бесплатных пользовательских словаря на http://www.lingvo.ru/ ;
  • подробные толкования и объяснения употребления слов;
  • современные лингвистические технологии;
  • новые дополненные версии общих и специализированных словарей.

Системные требования

Минимальная конфигурация компьютера:

  • IBM PC-совместимый компьютер с процессором Pentium 133 или выше;
  • операционная система Windows 95/98/Mе, Windows 2000/Windows NT 4.0 (SP3 или выше);
  • 16 Mбайт оперативной памяти для Windows 95/98/Mе, 32 Mбайт оперативной памяти для Windows 2000/Windows NT 4.0;
  • от 85 до 265 Мбайт свободного пространства на жестком диске;
  • дисковод 3.5” и CD-ROM-устройство, мышь;
  • Microsoft Internet Explorer 5.0 и выше (дистрибутив ABBYY Lingvo 7.0 включает в себя Microsoft Internet Explorer 5.5 - при его установке потребуется дополнительно от 27 до 80 Мбайт);
  • звуковая плата, совместимая с операционной системой; наушники или колонки (рекомендуется).

Контекст 4.0

«Контекст 4.0» - это система электронных словарей, включающая в себя развитую программную оболочку и обширный набор словарей - как общей лексики, так и специализированных. Уникальное свойство «Контекста» - учет морфологии поддерживаемых языков. Благодаря этому «Контекст» переводит слова и словосочетания в любой грамматической форме. Наиболее полно в «Контексте» представлены англо-русские и русско-английские словари. Библиотека «Контекста» новой версии расширена англо-французским, англо-немецким, англо-испанским, англо-итальянским, англо-португальским, англо-сербским и англо-хорватским словарями.

Словари «Контекста» являются двусторонними. Программа осуществляет перевод с одного языка на другой и обратно без какой-либо специальной настройки. Поиск перевода может быть осуществлен как по всем словарям, входящим в комплект, так и по конкретному словарю. При этом набор активных (участвующих в поиске) словарей, а также порядок поиска по ним можно легко изменять.

Работать с «Контекстом» можно набирая в специальное поле ввода интересующее пользователя слово или словосочетание (рис. 12).

Удобно работать с «Контекстом» и из приложений Windows. Перевод осуществляется методом drag-and-drop или через буфер обмена. В настройках можно указать горячую клавишу или включить опцию запуска перевода при помещении текста в буфер обмена.

Для пользователей, работающих в редакторе MS Word, реализована возможность вызова «Контекста» из самого редактора. Для этого следует нажать на иконку «Контекста», находящуюся на панели инструментов MS Word, причем пользователю не нужно выделять слово или словосочетание в тексте. «Контекст» переведет слово, на котором стоит курсор и заодно проверит несколько слов справа и слева, не входят ли они в состав словосочетания.

«Контекст» комплектуется словарями по заказу пользователя. Если пользователь купил оболочку и некоторые словари, он может докупить любые другие понадобившиеся ему словари.

4-я версия «Контекста» обладает рядом интересных возможностей, которых не было в предыдущих версиях. Например, словарь осуществляет поиск в частичных словосочетаниях. При этом все словосочетания, коэффициент релевантности которых по отношению к строке поиска больше заданного порогового значения, выдаются в окно перевода (рис. 13 , ).

Появилась новая функция быстрого набора (Fast Typing). При вводе слова пользователь получает подсказки близких слов из текущего словаря с учетом уже введенных символов (рис. 15). Далее пользователь может выбрать из списка или продолжить набор самостоятельно.

Для совместной работы словарей на разных языках наряду с автоматическим определением добавлена функция выбора языка (рис. 16).

В новой версии появилась возможность добавления и редактирования словарных статей, что делает работу системы словарей более гибкой. В предыдущей версии «Контекста» была реализована возможность работы со словарем пользователя. Новая версия программы «Контекст» позволяет заводить несколько словарей и редактировать их. Словари пользователя и стандартные словари, и словари пользователя являются равноправными в системе словарей «Контекста». Формат статьи словаря пользователя приближен к формату стандартного словаря, то есть к обычному книжному формату. В статью могут входить как слова и выражения, так и примеры использования слов в составе устойчивых выражений и толкования (

МультиЛекс 3.5

«МультиЛекс 3.5» - это электронный словарь, в состав которого входят электронные версии известных печатных словарей. В оболочке «МультиЛекс 3.5 Английский» выпускаются самые разные англо-русские и русско-английские словари (Новый англо-русский словарь В.К. Мюллера, англо-русский/русско-английский словарь О.С.Ахмановой, русско-английский словарь под ред. А.И.Смирницкого). Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций.

«МультиЛекс 3.5 Английский» позволяет пользователю постепенно подобрать для себя оптимальный набор словарей, которые и будут работать вместе.

Особенности словаря «МультиЛекс»:

  • удобство и простота в использовании;
  • озвучивание большого количества словарных статей;
  • быстрый доступ к важным статьям: при помощи закладок можно отметить важные для вас словарные статьи, а затем обращаться к ним напрямую;
  • функция «быстрого набора» - при наборе слова возникает список похожих слов, из которых пользователь может выбрать слово для перевода, не набирая его целиком;
  • перевод слова или фразы и перенос результатов перевода в Windows-приложение через буфер обмена или drag-and-drop;
  • ввод примечаний: при коллективной работе важно соблюдать единство терминологии. Здесь придет на помощь механизм примечаний - к любой словарной статье вы можете написать свои примечания;
  • словарь пользователя.

Окно «МультиЛекс» содержит рамку окна, строку меню, под которой расположены панель словарей, панель инструментов и строка поиска. Под строкой поиска находится собственно рабочая область окна «МультиЛекса» .

Рабочая область по вертикали разделена на две части: панель заголовков статей (левая) и панель текста словарной статьи (правая). Границу между панелями можно передвигать вправо-влево.

Левая панель содержит список заголовков статей того словаря, который показывается в панели словарей при помощи пиктограммы в виде открытой книги (используется для просмотра заголовков словарных статей). Правая панель всегда показывает словарную статью, соответствующую заголовку, выделенному в правой панели. Словарная статья начинается с заголовка, за которым следует его транскрипция. Далее указывается часть речи, даются возможные переводы, пояснения, примеры.

Панель словарей позволяет выбрать нужный словарь. Каждому словарю соответствует своя пиктограмма, принимающая три различных состояния: закрытая книга, полуоткрытая книга или открытая книга. Форма значков показывает, какой из словарей сейчас открыт и в каких словарях в результате последнего поиска было что-либо найдено.

Если значок словаря изображает открытую книгу (блокнот) - данный словарь сейчас открыт, полуоткрытую книгу (блокнот) - данный словарь сейчас не открыт, но в нем содержится информация, соответствующая вашему запросу, а если пиктограмма изображает закрытую книгу (блокнот) - данный словарь закрыт и нужной вам информации в нем нет.

В июле 2001 года вышла новая версия словаря «МультиЛекс 3.5 Английский Популярный» (англо-русский, русско-английский словарь общей лексики под редакцией О.С. Ахмановой и Е.А.М.Уилсон). Он содержит более 40 тыс. словарных статей.

Версия 3.5 обладает рядом достоинств, которые вы не найдете в предыдущей версии:

  • возможность доустановки словарей. Купив любой английский словарь (версии не ниже 3.5), вы сможете легко встроить его в ваш «МультиЛекс». Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций;
  • всплывающий перевод. В «МультиЛекс 3.5» предусмотрена поддержка перевода по горячим клавишам из любого приложения, поддерживающего Clipboard. Для этого просто выделите слово, нажмите соответствующую функциональную клавишу (по умолчанию F10) - и на экране появится окно с переводом. Перевод в окне является гиперссылкой. Если необходима более полная информация по интересующему вас слову, нажатием на левую кнопку мыши вызовите «МультиЛекс» с уже готовыми вариантами перевода запрашиваемого слова. Окно всплывающего перевода можно установить поверх всех окон, выбрав соответствующий пункт в контекстном меню, которое становится доступным при нажатии на правую кнопку мыши по иконке «МультиЛекс» (в правом нижнем углу экрана). Подобную же функцию выполняет кнопка в левой части окна «всплывающего перевода». С помощью этой кнопки вы можете «прикрепить» полученный перевод в любом месте своего экрана;
  • звуковая плата, совместимая с операционной системой, наушники или колонки (рекомендуется).

Резюме

В заключение несколько слов о личном опыте использования систем машинного перевода и словарями.

Три года назад я использовал систему машинного перевода для подготовки отчета западному работодателю. Несколько человек, которые занимались офшорным программированием, писали программу навигационного приемника. К сожалению, мало кто из группы владел английским настолько, чтобы описать результаты своей работы на языке заказчика. В связи с этим возникла необходимость перевода отчетов, составленных на русском языке. Именно тогда мне в голову пришла идея опробовать систему машинного перевода Stylus (первые версии систем компании ПРОМТ назывались именно так). Эта попытка оказалась очень удачной: я перевел 140-страничный документ раза в три быстрее, чем планировал. Конечно, перевод, выполненный программой, был не идеален. Мне пришлось много и долго его редактировать. Но выигрыш налицо.

С того времени при переводе текстов объемом более 10 страниц я всегда пользуюсь системами машинного перевода.

Эту историю я рассказал своему другу-предпринимателю. Тогда он начинал торговать обувью и налаживал связи с немецкими поставщиками. Он также купил подобную систему и до сих пор успешно переписывается с немцами по электронной почте (ни английского, ни немецкого он не знает). Написав письмо по-русски, он переводит его на немецкий и отсылает, а полученный ответ переводит на русский. И все довольны. В итоге мой друг на днях открывает уже пятый обувной магазин в Москве.

С электронными словарями я ознакомился еще раньше, когда у меня возникла необходимость читать зарубежные книги и журналы по техническим дисциплинам со специфической лексикой. Технические электронные словари, словари по телекоммуникациям и информатике позволили мне сохранить много времени и сил. Спасибо Lingvo!

Надеемся, что мой рассказ о новых системах машинного перевода и словарях поможет вам эффективно организовать свою работу и в конечном итоге добиться успеха.

Редакция благодарит за помощь в подготовке статьи: Александра Андреева, компания ПРОМТ; Андрея Соколова, компания «Информатика»; Анастасию Савину, компания ABBYY; Константина Конина и Наталью Талпы, компания «МедиаЛингва»; Алексея Буханова, компания «Арсеналъ».

КомпьютерПресс 9"2001

Лекция № 8 Тема: Назначение систем машинного перевода.

Назначение машинного перевода

Машинный перевод (МП), или автоматический перевод (АП),-интенсивно развивающаяся область научных исследований, экспериментальных разработок и уже функционирующих систем (СМП), в которых к процессу перевода с одного естественного языка (ЕЯ) на другой привлекается ЭВМ. СМП открывают быстрый и систематический доступ к информации на иностранном языке, обеспечивают оперативность и единообразие в переводе больших потоков текстов, в основном научно-технических. Работающие в промышленном масштабе СМП опираются на большие терминологические банки данных и, как правило требуют привлечения человека в качестве пред-, интер- или постредактора. Современные СМП, в особенности те, которые опираются при переводе на базы знаний в определенной предметной области, относят к классу систем искусственного интеллекта (ИИ).

Основные сферы использования МЦ

1. В отраслевых службах информации при наличии большого массива или постоянного потока иноязычных источников. Если СМП используются для выдачи сигнальной информации, постредактирование не требуется.

2. В крупных международных организациях, имеющих дело с многоязычным политематическим массивом документов. Таковы условия работы в Комиссии Европейских сообществ в Брюсселе, где вся документация должна появляться одновременно на девяти рабочих языках. Поскольку требования к переводу здесь высоки, МП нуждается в постредактировании.

3. В службах, осуществляющих перевод технической документации, сопро­вождающей экспортируемую продукцию. Переводчики не справляются в требуемые сроки с обширной документацией (так, спецификации к самолетам и другим сложным объектам могут занимать до 10000 и более страниц). Структура и язык технической документации достаточно стандартны, что облегчает МП и даже делает его предпочтительным перед ручным переводом, так как гарантирует единый стиль
всего массива. Поскольку перевод спецификаций должен быть полным и точным, продукция МП нуждается в постредактировании.

4. Для синхронного или почти синхронного перевода некоторого постоянного потока однотипных сообщений. Таков поток метеосводок в Канаде, который должен появляться одновременно на английском и французском языках.

Помимо практической потребности делового мира в СМП, существуют и чисто научные стимулы к развитию МП: стабильно работающие экспериментальные системы МП являются опытным полем для проверки различных аспектов общей теории понимания, речевого общения, преобразования информации, а также для создания новых, более эффективных моделей самого МП.

С точки зрения масштаба и степени разработанности СМП можно разбить на три основных класса: промышленные, развивающиеся и экспериментальные.

Лингвистическое обеспечение систем машинного перевода

Процесс МП представляет собой последовательность преобразований, при­меняемых к входному тексту и превращающих его в текст на выходном языке, который должен максимально воссоздавать смысл и, как правило, структуру исходного текста, но уже средствами выходного языка. К лингвистическому обеспечению СМП относится весь комплекс собственно лингвистических, металингвистических и так называемых «экстралингвистических» знаний, которые используются при таком преобразовании.

В классических СМП, осуществляющих непрямой перевод по отдельным предложениям (пофразный перевод), каждое предложение проходит последо­вательность преобразований, состоящую из трех частей (этапов): анализ -> трансфер (межъязыковые операции)->синтез. В свою очередь, каждый из этих этапов представляет собой достаточно сложную систему промежуточных преобразований.

Цель этапа анализа построить структурное описание (промежуточное представление, внутреннее представление) входного предложения, | Задача этапа трансфера (собственно перевода)-преобразовать структуру входного предложения во внутреннюю структуру выходного предложения. К этому этапу относятся и замены лексем входного языка их переводными эквивалентами (лексические межъязыковые преобразования). Цель этапа синтеза-на основе полученной в результате анализа структуры построить правильное предложение выходного языка.

Лингвистическое обеспечение стандартной современной СМП включает:

1) словари;

2) грамматики;

3) формализованные промежуточные представления единиц анализа на разных этапах преобразований.

Помимо стандартных, в отдельных СМП могут иметься и некоторые нестандартные компоненты. Так, экспертные знания о ПО могут задаваться с помощью специальных концептуальных сетей, а не в виде словарей и грамматик.

Механизмы (алгоритмы, процедуры) оперирования с имеющимися словарями, грамматиками и структурными представлениями относят к математико-алгоритмическому обеспечению СМП.

Одно из необходимых требований к современным СМП-высокая модульность. С лингвистически содержательной точки зрения это означает, что анализ и следующие за ним процессы строятся с учетом теории лингвистических уровней. В практике создания СМП различают такие уровни анализа:

Досинтаксический анализ (в него входит морфологический анализ - МорфАн, анализ оборотов, неопознанных элементов текста и др.);

Синтаксический анализ СинАн (строит синтаксическое представление предложения, или СинП); в его пределах может выделяться ряд подуровней, обес­печивающих анализ разных типов синтаксических единиц;

Семантический анализ СемАн, или логико-семантический анализ (строит аргументно-предикатную структуру высказываний или другой вид семантического
представления предложения и текст);

Концептуальный анализ (анализ в терминах концептуальных структур,отражающих семантику ПО). Этот уровень анализа используется в СМП, ориен­тированных на очень ограниченные ПО. По сути дела, концептуальная структура является проекцией схем ПО на лингвистические структуры, часто даже не на семантические, а на синтаксические. Только для очень узких ПО и ограниченных классов текстов концептуальная структура совпадает с семантической; в общем случае полного совпадения не должно быть, так как текст подробнее любых
концептуальных схем.

Синтез теоретически проходит те же уровни, что и анализ, но в обратном направлении. В работающих системах обычно реализован только путь от СинП до цепочки слов выходного предложения.

Лингвистическое разграничение разных уровней может проявляться также в разграничении используемых в соответствующих описаниях формальных средств (набор этих средств задается для каждою уровня отдельно). На практике часто задаются отдельно лингвистические средства МорфАн и совмещаются средства СинАн и СемАн. Но разграничение уровней может оставаться только содержательным при использовании в их описаниях единого формализма, пригодного для представления информации всех выделяемых уровней.

С технической точки зрения модульность лингвистического обеспечения означает отделение структурного представления фраз и текстов (как текущих, временных знаний о тексте) от «постоянных» знаний о языке, а также языковых знаний от знаний ПО; отделение словарей от грамматик, грамматик - от алгоритмов их обработки, алгоритмов « от программ. Конкретные соотношения различных модулей системы (словари-грамматики, грамматики - алгоритмы, алгоритмы - программы, декларативные - процедурные знания и др.), включая распределение лингвистических данных по уровням,- это то основное, что определяет специфику СМП.

Словари. Словари анализа, как правило, одноязычные. Они должны содержать всю информацию, необходимую для включения данной лексической единицы (ЛЕ) в структурное представление. Часто разделяют словари основ (с морфолого-синтаксической информацией: часть речи, тип словоизменения, подкласс, характеризующий синтаксическое поведение ЛЕ и т. п.) и словари словозначений, содержащие семантическую и концептуальную информацию: семантический класс ЛЕ, семантические надежи (валентности), условия их реализации во фразе и т. д.

Во многих системах разделены словари общеупотребительной и терминоло­гической лексики. Такое разделение дает возможность при переходе к текстам другой предметной области ограничиваться лишь сменой терминологических словарей. Словари сложных ЛЕ (оборотов, конструкций) образуют обычно от­дельный массив, словарная информация в них указывает на способ «собирания» такой единицы при анализе. Часть словарной информации может задаваться в процедурной форме, например, многозначным словам могут сопоставляться алгоритмы разрешения соответствующего типа неоднозначности. Новые виды организации словарной информации для целей МП предлагают так называемые «лексические базы знаний». Наличие разнородной информации о слове (называемой лексическим универсумом слова) приближает такой словарь, скорее к энциклопедии, чем к традиционным лингвистическим словарям.

Грамматики и алгоритмы. Грамматика и словарь задают лингвистическую модель, образуя основную часть лингвистических данных. Алгоритмы их обработки, 1. е. соотнесения с текстовыми единицами, относят к математико-алгоритмическому обеспечению системы.

Разделение грамматик и алгоритмов важно в практическом смысле тем, что позволяет менять правила грамматики, не меняя алгоритмов (и соответственно программ), работающих с грамматиками. Но далеко не всегда такое разделение возможно. Так, для системы с процедурным заданием грамматики и тем более С процедурным представлением словарной информации такое разделение нерелевантно. Алгоритмы принятия решений в случае недостаточной (неполнота входных данных) или избыточной (вариантность анализа) информации в больший мере эмпиричны, их формулировка требует лингвистической интуиции. Задание общего управляющего алгоритма, ведающего порядком вызова разных грамматик (если их несколько в одной системе), также требует лингвистического обоснования. Тем не менее существующая тенденция - отделить грамматики от алгоритмов так, чтобы все лингвистически содержательные сведения задавались в статической форме грамматик, а алгоритмы сделать настолько абстрактными, что они смогут вызывать и обрабатывать разные лингвистические модели.

Наиболее четко разделение грамматик и алгоритмов наблюдается в системах, работающих с контекстно-свободными грамматиками (КСГ), где модель языка- грамматика с конечным числом состояний, а алгоритм должен обеспечить для произвольно взятого предложения дерево его вывода по правилам грамматики, и если таких выводов несколько, то перечислить их. Такой алгоритм, представляющий собой формальную (в математическом смысле) систему, называется анализатором. Описание грамматики служит для анализатора, обладающее универсальностью, таким же входом, как и анализируемое предложение. Анализаторы строятся для классов грамматик, хотя учет специфических особенностей грамматики может повысить эффективность анализатора.

Грамматики синтаксического уровня - наиболее разработанная часть и с точки зрения лингвистики, и с точки зрения их обеспечения формализмами.

Основные типы грамматик и реализующих их алгоритмов:

Цепочечная грамматика фиксирует порядок следования элементов, т. е, ли­нейные структуры предложения, задавая их в терминах грамматических классов слов (артикль+существительное+предлог} или в терминах функциональных элементов (подлежащее+сказуемое);

Грамматика составляющих (или грамматика непосредственно составляющих- НСГ) фиксирует лингвистическую информацию о группировке грамматических элементов, например, именная группа (состоит из существительного, артикля,
прилагательного и других модификаторов), предложная группа (состоит из предлога и именной группы) и т. д. до уровня предложения. Грамматика строится как набор правил подстановки, или исчисление продукций вида А-»В...С. НСГ
представляют собой грамматики порождающего типа и могут использоваться как при анализе, так и при синтезе: предложения языка порождаются многократным применением таких правил;

Грамматика зависимостей (ГЗ) задает иерархию отношений элементов предложения (главное слово определяет форму зависимых). Анализатор в ГЗ основан на идентификации хозяев и их зависимых (слуг). Главным в предложении является глагол в личной форме, так как он определяет число и характер зависимых существительных. Стратегия анализа в ГЗ- сверху вниз: сначала идентифицируются хозяева, затем слуги, или снизу вверх: хозяева определяются процессом подстановки;

Категориальная грамматика Бар-Хиллела-это версия грамматики состав­ляющих, в ней только две категории - предложения S и имени п. Остальные определяются в терминах способности комбинироваться е этими главными в структуре НС. Так, переходный глагол определен как n\S, так как он сочетается с именем и слева от него, образуя предложение S.

Существует много способов учета контекстных условий: грамматики ме­таморфозы и их варианты. Все они являются расширениями КС-правил. В общем виде это значит, что правила продукций, переписываются так: А [а]->В[Ь], ... ,С [с], где малыми буквами обозначены условия, тесты, инструкции и т. д., расширяющие исходные жесткие правила и дающие грамматике гибкость и эффективность.

В грамматике обобщенных составляющих-ТСС введены метаправила, являющиеся обобщением закономерностей правил КС1.

В грамматиках расширенных сетей переходов-РСП предусмотрены тесты и условия к дугам, а также инструкции, которые надо выполнить в случае, если анализ пошел по данной дуге. В разных модификациях РСП дугам может приписываться вес, тогда анализатор может выбирать путь с наибольшим весом. Условия могут разбиваться на две части: контекстно-свободные и контекстно-зависимые.

Разновидностью РСПГ являются каскадные РСПГ. Каскад-это РСП, снабженная действием 1шшш1. Это действие вызывает остановку процесса в данном каскаде, запоминание информации о текущей конфигурации в стеке и переход к более глубокому каскаду с последующим возвратом в исходное состояние. РСП обладает рядом возможностей трансформационных грамматик. Она может использоваться и как генерирующая система.

Метод анализа с помощью граф-схемы позволяет сохранить частичные результаты и представить варианты анализа.

Новым и сразу завоевавшим популярность методом грамматического описания является лексшо-фунщиональная грамматика (ЛФГ). Она устраняет необходимость трансформационных правил. Хотя ЛФГ основывается на КСГ, проверочные условия в ней отделены от правил подстановки и «решаются» как автономные уравнения.

Унификационные грамматики (УГ) представляют собой следующий после граф-схем этап обобщения модели анализа: они способны воплощать грамматики различных видов. УГ содержит четыре компонента: пакет унификации, интерпретатор для правил и лексических описаний, программы обработки на­правленных графов, анализатор с помощью граф-схемы. УГ объединяют грамматические правила со словарными описаниями, синтаксические валентности с семантическими.

Центральной проблемой любой системы анализа ЕЯ является проблема выбора вариантов. Для ее решения грамматики синтаксического уровня дополняются вспомогательными грамматиками и методами разбора сложных ситуаций. В НС-грамматиках применяют фильтровый и эвристический методы. Фильтровый метод состоит в том. что сначала получают все варианты анализа предложения, а затем отбраковывают те, которые не удовлетворяют некоторой системе условий-фильтров. Эвристический метод с самого начала строит лишь часть вариантов, более правдоподобных с точки зрения заданных критериев. Использование весов для отбора вариантов является примером применения эвристических методов в анализе.

Семантический уровень гораздо меньше обеспечен теорией и практическими разработками. Традиционной задачей семантики считается снятие неоднозначности синтаксического анализа - структурной и лексической. Для этого используется аппарат селективных ограничений, который привязан к рамкам предложений, т. е. вписывается в синтаксическую модель. Наиболее распространенный тип СемАн основан на так называемых падежных грамматиках. В основе грамматики-понятие глубинного, или семантического, падежа. Падежная рамка глагола является расширением понятия валентность: это набор смысловых отношений, которые могут (обязательно или факультативно) сопровождать глагол и его вариации в тексте. В пределах одного языка один и тот же глубинный падеж реализуется разными поверхностными предложно - падежными формами. Глубинные падежи в принципе позволяют выходить за рамки предложения, а выход в текст означает переход к семантическому уровню анализа.

Поскольку семантическая информация в отличие от синтаксической, опирающейся в первую очередь на грамматики, сосредоточена в основном в словарях, в 80-е годы интенсивно разрабатываются грамматики, позволяющие «лексикализовать» КСГ. Ведется разработка грамматик, основанных на исследовании свойств дискурса.

  • Новожилова Анна Алексеевна

Ключевые слова

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ / ЭЛЕКТРОННЫЕ СЛОВАРИ / АВТОМАТИЗАЦИЯ ПЕРЕВОДА / МАШИННЫЙ ПЕРЕВОД / КАЧЕСТВО ПЕРЕВОДА

Аннотация научной статьи по языкознанию, автор научной работы - Новожилова Анна Алексеевна

В статье подробно рассматриваются две системы машинного перевода «ПРОМТ» и «Google Translate», которые в настоящее время наиболее популярны среди пользователей интернета. Работа этих систем организована по разным принципам: «ПРОМТ» работает по так называемому принципу «перевода по правилам» и копирует переводческую деятельность человека; «Google Translate» осуществляет переводы по технологии, основанной на принципе статистики. На примере фрагментов текстов разных жанров предлагается лингвистический анализ качества переводов с английского языка на русский, выполненных данными системами. В ходе тестирования выявляются типичные ошибки, допускаемые в машинном переводе , и определяются возможности и сферы использования каждой из переводческих систем. Устанавливается, что данные системы непригодны для работы с текстами, содержащими большое количество сложносочиненных и сложноподчиненных предложений. Эти программы работают в основном на уровне словосочетания, и их можно успешно применять для перевода формализованных текстов, например технической документации, потребительских инструкций, формальных описаний и т. п., для которых характерно использование простых распространенных предложений и в которых не содержатся предложения со сложными синтаксическими конструкциями. Делается вывод о том, что профессиональные переводчики могут прибегать к помощи этих систем в своей практической деятельности при работе с определенными типами текстов, что помогает экономить время и оптимизировать процесс перевода. Однако обязательным условием достижения высокого качества переводов , выполненных с помощью компьютерных программ, является их постредактирование.

Похожие темы научных работ по языкознанию, автор научной работы - Новожилова Анна Алексеевна,

  • Постредактирование машинного перевода как актуальное направление подготовки переводчиков в вузах

    2018 / Нечаева Наталья Викторовна, Светова Светлана Юрьевна
  • Языковая личность переводчика и машинный перевод

    2011 / Бабина Ольга Ивановна
  • 2009 / Коротких Г. И., Коротких Гал И.
  • Google-переводчик: практика и перспективы применения в юридическом вузе

    2018 / Мартыненко Ирина Анатольевна
  • Формирование основ переводческой компетенции при взаимодействии студентов в компьютерной обучающей среде

    2016 / Абдуллахитов Рустам Шахраниевич, Дашкина Александра Игоревна

The article considers two machine translation systems, PROMT and Google Translate, which work on different principles. PROMT works on the so-called "translation by the rules" principle. Google Translate uses the technology which is based on the statistics principle. The article presents the linguistic analysis of the quality of the translations of text fragments of various genres made from English into Russian by these systems. The most typical mistakes made by the systems are revealed, the possibilities and spheres of use are determined. The author reveals that the systems are not useful for translating texts which are full of compound and complex sentences. The programs work mainly on the phrase level and can be fruitfully used for translating texts of formal style, for example, technical documents, manuals, etc., which contain simple extended sentences and do not contain sentences with complex syntactic constructions. The author considers that professional translators can use these systems while working with certain text types; however, the translations made by the systems must be checked thoroughly and verified.

Текст научной работы на тему «Машинные системы перевода: качество и возможности использования»

DOI: http://dx.doi.org/10.15688/jvolsu2.2014.3.8

УДК 81"322.4 ББК 81.184

МАШИННЫЕ СИСТЕМЫ ПЕРЕВОДА: КАЧЕСТВО И ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ

Новожилова Анна Алексеевна

Кандидат филологических наук, доцент кафедры теории и практики перевода Волгоградского государственного университета [email protected], [email protected]

просп. Университетский, 100, 400062 г Волгоград, Российская Федерация

Аннотация. В статье подробно рассматриваются две системы машинного перевода - «ПРОМТ» и «Google Translate», которые в настоящее время наиболее популярны среди пользователей интернета. Работа этих систем организована по разным принципам: «ПРОМТ» работает по так называемому принципу «перевода по правилам» и копирует переводческую деятельность человека; «Google Translate» осуществляет переводы по технологии, основанной на принципе статистики. На примере фрагментов текстов разных жанров предлагается лингвистический анализ качества переводов с английского языка на русский, выполненных данными системами. В ходе тестирования выявляются типичные ошибки, допускаемые в машинном переводе, и определяются возможности и сферы использования каждой из переводческих систем. Устанавливается, что данные системы непригодны для работы с текстами, содержащими большое количество сложносочиненных и сложноподчиненных предложений. Эти программы работают в основном на уровне словосочетания, и их можно успешно применять для перевода формализованных текстов, например технической документации, потребительских инструкций, формальных описаний и т. п., для которых характерно использование простых распространенных предложений и в которых не содержатся предложения со сложными синтаксическими конструкциями. Делается вывод о том, что профессиональные переводчики могут прибегать к помощи этих систем в своей практической деятельности при работе с определенными типами текстов, что помогает экономить время и оптимизировать процесс перевода. Однако обязательным условием достижения высокого качества переводов, выполненных с помощью компьютерных программ, является их постредактирование.

Ключевые слова: информационные технологии, электронные словари, автоматизация перевода, машинный перевод, качество перевода.

^ Научно-технический прогресс влечет за собой возрастание потоков информации, кото-« рой обмениваются носители разных языков, что

1 способствует расширению межъязыковых гра-о ниц и увеличению объема текстов, требующих щ перевода. «В настоящее время перевод выпол-© няет главную функцию в процессе межкультур-

ной коммуникации, позволяя человечеству преодолевать трудности в аккумулировании полезной и необходимой информации» . Современные переводчики уже не могут использовать в своей работе лишь словари. В пере-водоведении все больше внимания уделяется анализу электронных средств, позволяющих

ускорить и оптимизировать процесс перевода. Отечественные и зарубежные ученые-лингвисты, практики и теоретики-переводоведы, в особенности специалисты в области переводческого терминоведения и машинного перевода, отмечая возрастающую значимость информационных технологий в лингвистике в целом и в переводе в частности, разрабатывают различные стратегии и методы их наиболее эффективного применения в профессиональной деятельности .

Процессы глобализации и общедоступность интернета обусловили интенсивное развитие и совершенствование систем информационного обеспечения коммуникативной деятельности . По мнению В.Н. Шевчука, начало нового тысячелетия совпало с наступлением эры информационной революции и в практической деятельности профессиональных переводчиков и филологов за последние 20 лет произошли гигантские изменения . Многие ученые считают, что появление компьютеров и интернета стало серьезным шагом вперед в области практического перево-доведения, позволило значительно повысить качество перевода, особенно при переводе текстов с родного языка на иностранный, а переводчикам работать стало проще и быстрее . А.Н. Усачева утверждает, что благодаря интернету «переводчик приобрел уникальную возможность выхода в мировую информационную сеть, ему стали доступны данные отовсюду. Изменения, которые это внесло в профессию переводчика, настолько колоссальны, что все последствия этого сейчас вряд ли возможно оценить» .

Сегодня в распоряжении переводчика находятся разнообразные электронные инструменты, ускоряющие и облегчающие переводческий процесс. Наиболее известными из них являются электронные переводные словари («Lingvo», «Мультитран», «Мультилекс», «Babylon», «Polyglossum» и др.), системы класса Translation Memory («TRADOS», «Déjà vu», «Wordfast» и др.), программы автоматического редактирования текстов, программы распознавания устной речи, электронные библиотеки, терминологические базы данных, а также сама глобальная сеть Интернет как хранилище информационных ресурсов. Все эти инструменты являются лишь вспомогательными в

деятельности профессионального переводчика, хотя ученые еще с середины прошлого столетия работают над созданием систем, которые автоматически выполняли бы безупречные переводы с одного языка на другой. Первая система машинного перевода - IBM Mark II, разработанная компанией IBM совместно с Джорджтаунским университетом, была представлена в 1954 г. в Нью-Йорке. С тех пор исследования и разработки в сфере машинного перевода не прекращаются, а специалисты в области перевода на протяжении многих лет ведут споры о целесообразности применения программ автоматического перевода. В среде профессиональных переводчиков высказывается много аргументов за их использование и против него, но как противники, так и сторонники машинного перевода остаются единодушны в том, что у этих программ есть одно неоспоримое преимущество - значительная экономия времени, затрачиваемого на перевод больших объемов текста. На сегодняшний день существуют различные системы машинного перевода, некоторые из них выполняют перевод на довольно высоком уровне. Но для того, чтобы выявить, какие именно системы подходят для работы с теми или иными языками или типами текстов, необходимо осуществлять тестирование этих систем и анализировать качество перевода на основе больших фрагментов текстов. Это входит в задачи лингвистов-переводоведов, а разработчики автоматизированных программ перевода стараются исправлять ошибки в системе, развивать и совершенствовать свои продукты, опираясь на получаемые результаты и теоретические обоснования специалистов в области переводоведения.

К основным факторам, затрудняющим машинный перевод, исследователи относят:

Языковую неоднозначность, которая может быть как лексического, так и грамматического характера;

Наличие сложных синтаксических структур, которые могут значительно различаться в языке оригинала и в языке перевода;

Различия в порядке слов в предложении (прямой / обратный, строгий / свободный);

Наличие анафорических связей в тексте;

Наличие идиом, смысл которых невозможно передавать посредством пословного перевода;

Наличие неологизмов;

Существование культурных различий у языковых сообществ и т. д. .

Среди наиболее известных автоматических переводчиков можно выделить системы машинного перевода «ПРОМТ» и «Google Translate». Автоматический переводчик «ПРОМТ» работает по принципу «перевода по правилам». Технология этого перевода состоит в применении алгоритмов, в соответствии с которыми программа анализирует текст и на основе проведенного анализа синтезирует вариант перевода. Считается, что работа такого машинного переводчика похожа на процесс мышления человека . Работа системы машинного перевода «Google Translate» осуществляется по принципиально иной технологии, основанной на статистическом вычислении вероятности совпадений. Этой системой используется множество баз параллельных текстов, в которых попарно хранятся словосочетания и их переводы. В процессе перевода осуществляется статистический анализ: система подбирает эквивалент для перевода, основываясь на частоте употреблений, и в итоге подставляет вариант, имеющий наиболее высокий процент совпадений. Следует отметить, что «Google Translate» изначально разрабатывался для перевода с английского языка и на него, и до сих пор английский является языком-посредником при работе с другими парами языков. Иначе говоря, перевод осуществляется не напрямую: сначала происходит трансфер текста с языка-оригинала на английский, а уже потом - на необходимый язык перевода, что во многом влияет на качество перевода.

Сопоставим примеры переводов, выполненные системами «ПРОМТ» и «Google Translate» с английского языка на русский. При переводе фрагмента текста технического характера - инструкции по эксплуатации электронного устройства (игровой приставки) - были получены следующие результаты:

Оригинал:

Keep food and beverages away from product. Do not spill liquid of any kind on this product as it may render it inoperative. Clean with a slightly damp cloth (cold water). Do not use soap, detergent or other chemicals. Never submerge the unit in water.

«ПРОМТ» (режим - общая тематика, без подключения специализированных словарей):

Держите отдельно еду и напитки от продукта. Не проливайте жидкость никакого вида на этом продукте, поскольку это может отдать его недействующий. Чистый с немного влажной тканью (холодная вода). Не используйте мыло, моющее средство или другие химикаты. Никогда не погружайте единицу в воду.

«Google Translate» (основной предлагаемый вариант):

Держите еду и напитки от продукта. Не допускайте попадания какой-либо жидкости об этом продукте, как это может сделать его неработоспособным. Очистите со слегка влажной тканью (холодная вода). Не используйте мыло, моющие средства или другие химические вещества. Никогда не погружайте прибор в воду.

Следует отметить, что обе системы правильно распознали формы повелительного наклонения, используемые в тексте оригинала. Переводчик «Google Translate» верно определил частеречную принадлежность всех языковых единиц. Это составляет его преимущество по сравнению с «ПРОМТ», который выбрал для перевода лексемы clean прилагательное чистый, а не глагол очистить. Эта проблема связана с широко распространенным в английском языке явлением грамматической омонимии. «ПРОМТ», выполняя перевод по грамматическим правилам, неверно дешифровал исходную синтаксическую конструкцию и допустил ошибку, поскольку в программе не был учтен тот факт, что английский язык относится к аналитическому типу языков с достаточно строгим порядком слов и обязательным наличием сказуемого в предложении: именно оно при переводе не было распознано. «Google Translate» определил наличие глагола в этом предложении и его грамматическую форму (императив), но не распознал его видового значения, поскольку категория вида в английском языке не является облигаторной для каждой формы глагола. В данном предложении профессиональный переводчик обязательно использовал бы глагол несовершенного вида, чтобы подчеркнуть неоднократность предписываемого действия.

Приведенные переводы показывают, что обе системы не всегда хорошо справляются с выбором управления глаголов и часто работа-

ют на уровне словосочетаний, стоящих в непосредственной близости друг от друга (попадания какой-либо жидкости об этом продукте; не проливайте жидкость никакого вида на этом продукте и др.). При этом осуществлен и корректный выбор управления, например: Никогда не погружайте единицу в воду / Никогда не погружайте прибор в воду; Не используйте мыло, моющее средство или другие химикаты / Не используйте мыло, моющие средства или другие химические вещества.

Различия обнаруживаются и при переводе наречий. Так, «ПРОМТ» перевел наречие away с помощью наречия отдельно, а «Google Translate» опустил это наречие, ограничившись переводом предлога from. Однако применение функции просмотра и выбора доступных вариантов перевода позволяет увидеть, что в «Google Translate» единицы away и from рассматриваются как связанная пара и предлагаются более точные варианты перевода -вдали от, далеко от.

В системе «ПРОМТ» есть функция выбора специальной терминологической области. При переводе данного отрывка с подключением тематической области «техника: гад-жеты» был получен следующий текст:

Держите отдельно еду и напитки от продукта. Не проливайте жидкость никакого вида на этом продукте, поскольку это может представить его недействующий. Чистый с немного влажной тканью (холодная вода). Не используйте мыло, моющее средство или другие химикаты. Никогда не погружайте модуль в воду.

Подключение специализированной тематической области обусловило замену лексемы единица лексемой модуль, что в данном контексте можно рассматривать как более удачный вариант. При переводе английского глагола render был использован глагол представить, а не глагол отдать. Однако оба варианта нельзя считать корректными, поскольку в данном случае глагол render следовало бы перевести посредством словосочетания приводить в состояние (это может привести его в неисправное состояние).

Если воспользоваться в системе «Google Translate» предлагаемыми для отдельных словосочетаний вариантами перевода, то можно «собрать» следующий текст:

Храните еду и напитки вдали от продукта. Избегайте попадания каких-либо жидкостей об этом продукте, как это может сделать его неработоспособным. Очистите со слегка влажной тканью (холодная вода). Не используйте мыло, моющие средства или другие химические вещества. Никогда не погружайте прибор в воду.

Приведенный перевод свидетельствует о том, что пользователю чаще всего предлагаются варианты, которые практически не различаются ни лексически, ни грамматически. Однако если сравнить оригинал и перевод второго предложения, то видно, что система произвела грамматическую и лексическую трансформации, заменив императив глагола spill в отрицательной конструкции (Do not spill liquid of any kind- дословно: не проливайте жидкостей какого-либо рода) на конструкцию «глагол + существительное» (не допускайте / избегайте попадания), но правильного управления для существительного (попадание куда-л.) распознать не смогла. При переводе второй части этого предложения не было дано корректного варианта и для многозначного союза as («так как, поскольку»), использующегося для выражения причинно-следственных отношений.

Результаты анализа представлены в приведенной ниже таблице.

Сравнение машинных переводчиков «ПРОМТ» и «Google Translate»

Языковой параметр сопоставления Система машинного перевода

«ПРОМТ» «Google Translate»

Наклонение + +

Часть речи + +/-

Управление +/- +/-

Лексика +/- +/-

Из таблицы видно, что обе системы хорошо распознают наклонение; «ПРОМТ» допускает меньше ошибок с определением ча-стеречной принадлежности лексических единиц; обе системы не всегда справляются с выбором верного управления, подбором правильного лексического эквивалента и нормами употребления глагольного вида в русском языке. Однако, несмотря на наличие ошибок и неточностей, допущенных программами, можно сделать вывод о том, что общий смысл переведенного фрагмента понятен, и после

внесения корректуры в переводы, выполненные каждой из систем, можно получить текст, который будет вполне соответствовать нормам русского языка.

Приведем в качестве еще одного примера переводы текста другого жанра - энциклопедической статьи.

Оригинал (фрагмент):

Article 5 of the North Atlantic treaty, requiring member states to come to the aid of any member state subject to an armed attack, was invoked for the first and only time after the 11 September 2001 attacks, after which troops were deployed to Afghanistan under the NATO-led ISAF. The organization has operated a range of additional roles since then, including sending trainers to Iraq, assisting in counter-piracy operations and in 2011 enforcing a no-fly zone over Libya in accordance with U.N. Security Council Resolution 1973.

Статья 5 Североатлантического соглашения, требуя, чтобы государства-члены пришли на помощь любому государству-члену, подвергающемуся вооруженному нападению, была призвана в течение первого и единственного времени, после 11 сентября 2001 нападает, после которого войска были развернуты в Афганистан под ВЕДОМЫМ НАТО ISAF. Организация управляла диапазоном дополнительных ролей с тех пор, включая отправку тренеров в Ирак, помощь в операциях противопиратства и в 2011 проводя в жизнь бесполетную зону по Ливии в соответствии с Резолюцией 1973 Совета безопасности ООН.

«Google Translate»:

Статья 5 Североатлантического договора, требующего государства-члены пришли на помощь любой стране-члене условии вооруженного нападения, был вызван в первый и единственный раз после 11 сентября 2001 года, после чего войска были развернуты в Афганистане под под руководством НАТО ISAF. Организация осуществляет свою деятельность ряд дополнительных ролей с тех пор, включая отправку инструкторов в Ирак, помощь в борьбе с пиратством и в 2011 году приведения бесполетной зоны над Ливией в соответствии с Резолюцией 1973 Совета Безопасности ООН.

Исходный фрагмент текста состоит из двух повествовательных предложений, первое из которых является сложноподчиненным и содержит большое количество конструкций,

построенных на основе подчинительных связей между их компонентами. Второе является простым распространенным предложением с однородными членами, герундием и сложными синтаксическими конструкциями. Переводы позволяют увидеть, что обе системы не распознают сложных синтаксических связей, неверно определяют сказуемое, объектные, атрибутивные и другие отношения в предложении. Выполненные переводы представляют собой, скорее, произвольный набор слов и словосочетаний, не объединенных смысловыми связями. Их, в отличие от предыдущего примера, невозможно отредактировать, не обращаясь к оригиналу.

Представленный анализ позволяет сделать вывод о том, что машинные переводчики «Google Translate» и «ПРОМТ» непригодны для переводов текстов, изобилующих сложносочиненными и сложноподчиненными предложениями, распространенными определениями, метафорическими сравнениями, сложными синтаксическими конструкциями и т. п. Перевод таких текстов может выполнить лишь человек, поскольку только он способен к осуществлению глубинных когнитивных речемыслитель-ных процессов. Однако машинные системы можно использовать для перевода с английского на русский язык текстов, которые достаточно формализованы в речевом плане (техническая документация, потребительские инструкции, контракты и т. п.). Однако и в этом случае выполненные машиной переводы требуют обязательного редактирования и доработки «вручную». Профессиональные переводчики, от которых социум, как правило, ожидает переводы высокого качества, могут прибегать к помощи «ПРОМТ» и «Google Translate» при переводе текстов, ограниченных в сфере функционирования, поскольку названные компьютерные системы часто предлагают вполне адекватные, не требующие редактирования, варианты переводов для отдельных предложений или небольших фрагментов текста либо варианты, требующие минимальной корректуры, которая занимает у опытного переводчика незначительное время. Таким образом, системы «ПРОМТ» и «Google Translate» при правильном использовании способствуют ускорению процесса перевода и оптимизации труда практикующих переводчиков.

СПИСОК ЛИТЕРА ТУРЫ

1. Андреев, А. Машинный перевод: правила против статистики / А. Андреев. - Электрон. текстовые дан. - Режим доступа: http://www.computerra.ru/ cio/old/offline/2007/63/329838/. - Загл. с экрана.

2. Зубов, А. В. Информационные технологии в лингвистике / А. В. Зубов, И. И. Зубова. - М. : Академия, 2004. - 208 с.

3. Королев, Э. И. Промышленные системы машинного перевода / Э. И. Королев. - М. : Всесо-юз. центр переводов, 1991. - 104 с.

4. Марчук, Ю. Н. Компьютерная лингвистика / Ю. Н. Марчук. - М. : АСТ: Восток-Запад, 2007. -320 с.

5. Новожилова, А. А. Обучение студентов-переводчиков работе с электронными ресурсами как основа их будущей конкурентоспособности и успешности / А. А. Новожилова, Е. А. Шовгенина // Вестник Волгоградского государственного университета. Серия 6, Университетское образование. -2013. - №> 14. - С. 70-76.

6. Соловьева, А. В. Профессиональный перевод с помощью компьютера / А. В. Соловьева. -СПб. : Питер, 2008. - 160 с.

7. Тиссен, Ю. В. Интернет в работе переводчика / Ю. В. Тиссен // Мир перевода. - 2000. - .№ 2. -С. 45-62.

8. Усачева, А. Н. Инновационные технологии в профессиональном переводе / А. Н. Усачева // Коммуникативные аспекты современной лингвистики и лингводидактики: материалы Междунар. науч. конф., г. Волгоград, 29 янв. 2008 г. - Волгоград: Волгогр. науч. изд-во, 2008. -С. 81-87.

9. Усачева, А. Н. Перевод: от лингвистической теории к когнитивной модели / А. Н. Усачева // Вестник Волгоградского государственного университета. Серия 2, Языкознание. - 2011. - J№ 1 (13). -С. 131-137.

10. Шевчук, В. Н. Информационные технологии в переводе. Электронные ресурсы переводчика - 2 / В. Н. Шевчук. - М. : Зебра Е, 2013. -384 с.

11. Шевчук, В. Н. Электронные ресурсы переводчика / В. Н. Шевчук. - М. : Либрайт, 2010. -136 с.

12. Austermühl, F. Electronic Tools for Translators / F. Austermühl. - Manchester: St. Jerome, 2001. - 192 p.

13. Bowker, L. Computer-Aided Translation Technology: A Practical Introduction / L. Bowker. -Ottawa: Univ. of Ottawa Press, 2002. - 185 p.

14. Computers and Translation: A Translator"s Guide / H. Somers (ed.). - Amsterdam ; Philadephia: John Benjamins Publ. Company, 2003. - 349 p.

1. Andreev A. Mashinnyy perevod: pravila protiv statistiki . Available at: http://www.computerra.ru/cio/ old/offline/2007/63/329838/.

2. Zubov A.V., Zubova I.I. Informatsionnye tekhnologii v lingvistike . Moscow, Akademiya Publ., 2004. 208 p.

3. Korolev E.I. Promyshlennye sistemy mashinnogo perevoda . Moscow, Vsesoyuznyy tsentr perevodov Publ., 1991. 104 p.

4. Marchuk Yu.N. Kompyuternaya lingvistika . Moscow, AST, Vostok-Zapad Publ., 2007. 320 p.

5. Novozhilova A.A., Shovgenina E.A. Obuchenie studentov-perevodchikov rabote s elektronnymi resursami kak osnova ikh budushchey konkurentosposobnosti i uspeshnosti . Vestnik Volgogradskogo gosudarst-vennogo universiteta. Seriya 6, Universitetskoe obrazovanie , 2013, no. 14, pp. 70-76.

6. Solovyeva A.V. Professionalnyy perevod s pomoshchyu kompyutera . Saint Petersburg, Piter Publ., 2008. 160 p.

7. Tissen Yu.V. Internet v rabote perevodchika . Mir perevoda, 2000, no. 2, pp. 45-62.

8. Usacheva A.N. Innovatsionnye tekhnologii v professionalnom perevode . Kommunikativnye aspekty sovremennoy lingvistiki i lingvodidaktiki. Materialy Mezhdunarodnoy nauchnoy konferentsii. Volgograd, 29 yanvarya 2008 . Volgograd, Volgogradskoe nauchnoe izd-vo, 2008, pp. 81-87.

9. Usacheva A.N. Perevod: ot lingvisticheskoy teorii k kognitivnoy modeli .

Vestnik Volgogradskogo gosudarstvennogo universiteta. Seriya 2, Yazykoznanie , 2011, no. 1 (13), pp. 131-137.

10. Shevchuk V.N. Informatsionnye tekhnologii v perevode. Elektronnye resursy perevodchika - 2 . Moscow, Zebra E Publ., 2013. 384 p.

11. Shevchuk V.N. Elektronnye resursy perevodchika . Moscow, Librayt Publ., 2010. 136 p.

12. Austermühl F. Electronic Tools for Translators. Manchester, St. Jerome, 2001. 192 p.

13. Bowker L. Computer-Aided Translation Technology: A Practical Introduction. Ottawa, University of Ottawa Press, 2002. 185 p.

14. Somers H., ed. Computers and Translation: A Translator"s Guide. Amsterdam, Philadephia, John Benjamins Publishing Company, 2003. 349 p.

MACHINE TRANSLATION SYSTEMS: QUALITY AND POSSIBLE WAYS OF USE

Novozhilova Anna Alekseevna

Candidate of Philological Sciences,

Associate Professor, Department of Translation Theory and Practice, Volgograd State University [email protected], [email protected]

Prosp. Universitetsky, 100, 400062 Volgograd, Russian Federation

Abstract. The article considers two machine translation systems, PROMT and Google Translate, which work on different principles. PROMT works on the so-called "translation by the rules" principle. Google Translate uses the technology which is based on the statistics principle. The article presents the linguistic analysis of the quality of the translations of text fragments of various genres made from English into Russian by these systems. The most typical mistakes made by the systems are revealed, the possibilities and spheres of use are determined. The author reveals that the systems are not useful for translating texts which are full of compound and complex sentences. The programs work mainly on the phrase level and can be fruitfully used for translating texts of formal style, for example, technical documents, manuals, etc., which contain simple extended sentences and do not contain sentences with complex syntactic constructions. The author considers that professional translators can use these systems while working with certain text types; however, the translations made by the systems must be checked thoroughly and verified.

Key words: information technologies, electronic dictionaries, computerized translation, machine translation, quality of translation.

Докладчики: Ирина Рыбникова и Анастасия Пономарёва.

Мы расскажем про историю машинного перевода и про то, как мы используем его в Яндексе.

Еще в XVII веке ученые размышляли о существовании какого-то языка, который связывает между собой другие языки, и наверное, это слишком давно. Давайте поближе вернемся. Все мы хотим понимать людей вокруг - неважно, куда мы приехали, - мы хотим видеть, что написано на вывесках, мы хотим читать объявления, информацию о концертах. Идея вавилонской рыбки бороздит умы ученых, встречается в литературе, кинематографе - везде. Мы хотим сократить то время, за которое мы получаем доступ к информации. Мы хотим читать статьи о китайских технологиях, понимать любые сайты, которые мы видим, и хотим это получать здесь и сейчас.

В разрезе этого невозможно не говорить про машинный перевод. Это то, что помогает решать указанную задачу.

Отправной точкой считается 1954 год, когда в США на машине IBM 701 было переведено 60 предложений по общей тематике органической химии с русского на английский, и в основе всего этого лежало 250 терминов глоссария и шесть грамматических правил. Это называлось Джорджтаунским экспериментом, и это настолько потрясло реальность, что газеты пестрили заголовками, что еще три-пять лет, и проблема будет полностью решена, все будут счастливы. Но как вы знаете, все пошло немного по-другому.

В 70-е годы появился машинный перевод на основе правил. В его основе тоже лежали двуязычные словари, но и те самые наборы правил, которые помогали описывать любой язык. Любой, но с ограничениями.

Требовались серьезные эксперты-лингвисты, которые прописывали правила. Это достаточно сложная работа, она все равно не могла учесть контекст, полностью покрыть какой бы то ни было язык, но они были экспертам, и высокие вычислительные мощности тогда не требовались.

Если говорить про качество, классический пример - цитата из Библии, которая переводилась тогда так. Пока недостаточно. Поэтому люди продолжали дальше работать над качеством. В 90-е годы возникла статистическая модель перевода, SMT, которая говорила о вероятностном распределении слов, предложений, и эта система принципиально отличалась тем, что она вообще ничего не знала про правила и про лингвистику. Она получала на вход огромное количество идентичных текстов, парных на одном языке и другом, и дальше сама принимала решения. Это было легко поддерживать, не нужны были кучи экспертов, не требовалось ждать. Можно было загружать и получать результат.

Требования к входящим данным были достаточно средние, от 1 до 10 млн сегментов. Сегменты - предложения, небольшие фразы. Но оставались свои трудности и не учитывался контекст, все было не очень легко. И в России, например, появились такие случаи.

Мне еще нравится пример переводов игр GTA, великолепный был результат. Все не стояло на месте. Достаточно важным майлстоуном был 2016 год, когда запустился нейронный машинный перевод. Это было достаточно эпохальное событие, которое сильно перевернуло жизнь. Моя коллега, посмотрев переводы и то, как мы их используем, сказала: «Круто, он говорит моими словами». И это было реально здорово.

Какие особенности? Высокие требования на входе, обучающий материал. Внутри компании это сложно поддерживать, но существенный рост качества - это то, ради чего это затевалось. Только качественный перевод позволит решить поставленные задачи и облегчит жизнь всем участникам процесса, тем же переводчикам, которые не хотят исправлять плохой перевод, они хотят делать новые творческие задачи, а рутинные шаблонные фразы давать машине.

В рамках машинного перевода есть два подхода. Экспертная оценка / лингвистический анализ текстов, то есть проверка реальными лингвистами, экспертами на соответствие смыслу, грамотности языка. В некоторых случаях еще сажали экспертов, давали вычитать переведенный текст и оценивали, насколько это эффективно с этой точки зрения.

Какие особенности этого метода? Не требуется образец перевода, мы смотрим на готовый переведенный текст сейчас и оцениваем объективно по любому разрезу. Но это дорого и долго.

Есть второй подход - автоматические референсные метрики. Их много, у каждой есть плюсы и минусы. Не буду углубляться, про эти ключевые слова потом можно почитать детальнее.

Какая особенность? По факту это сравнение переведенных машинных текстов с каким-то образцовым переводом. Это количественные метрики, которые показывают расхождение между образцовым переводом и тем, что получилось. Это быстро, дешево и можно сделать достаточно удобно. Но есть особенности.

По факту чаще всего сейчас используют гибридные методы. Это когда изначально оценивается что-то автоматически, потом анализируется матрица ошибок, потом на более мелком корпусе текстов проводится экспертный лингвистический анализ.

Последнее время еще распространена практика, когда мы туда не лингвистов зовем, а просто пользователей. Делается интерфейс - покажите, какой вам перевод больше нравится. Или когда вы ходите в онлайн-переводчики, вы вводите текст, и можете часто проголосовать, что вам больше нравится, подходит этот подход или нет. По сути, все мы сейчас обучаем эти движки, и все, что мы им даем на перевод, они используют для обучения и работают над своим качеством.

Хотелось бы рассказать, как мы в работе используем машинный перевод. Передаю слово Анастасии.

Мы в Яндексе в отделе локализации поняли достаточно быстро, что возможности у технологии машинного перевода большие, и решили попробовать использовать его в наших ежедневных задачах. С чего мы начали? Мы решили провести небольшой эксперимент. Мы решили перевести одни и те же тексты через обычный нейросетевой переводчик, а также собрать обученный машинный переводчик. Для этого мы подготовили корпуса текстов в паре русский-английский за те годы, что мы в Яндексе занимались локализацией текстов на эти языки. Далее мы пришли с этим корпусом текстов к нашим коллегам из Яндекс.Переводчика и попросили обучить движок.

Когда движок был обучен, мы перевели очередную порцию текстов, и как сказала Ирина, с помощью экспертов оценили полученные результаты. Переводчиков мы просили посмотреть на грамотность, стиль, правописание, передачу смысла. Но самый поворотный момент был, когда один из переводчиков сказал, что «я узнаю свой стиль, узнаю свои переводы».

Чтобы подкрепить эти ощущения, мы решили посчитать уже статистические показатели. Сначала мы посчитали коэффициент BLEU для переводов, сделанных через обычный нейросетевой движок, и получили такую цифру (0,34). Казалось бы, ее надо с чем-то сравнить. Мы снова пошли к коллегам из Яндекс.Переводчика и попросили объяснить, какой коэффициент BLEU считается пороговым для переводов, сделанных реальным человеком. Это от 0,6.

Потом мы решили проверить, какие результаты на обученных переводах. Получили 0,5. Результаты действительно обнадеживающие.

Привожу пример. Это реальная русская фраза из документации Директа. Потом она была переведена через обычный нейросетевой движок, а потом через обученный нейросетевой движок на наших текстах. Уже в первой же строчке мы замечаем, что традиционный для Директа, вид рекламы, не распознан. А уже в обученном нейросетевом движке появляется наш перевод, и даже аббревиатура практически верная.

Мы были очень воодушевлены полученными результатами, и решили, что наверное, стоит использовать машинный движок в других парах, на других текстах, не только на том базовом наборе технической документации. Дальше проводили несколько месяцев ряд экспериментов. Столкнулись с большим количеством особенностей и проблем, это самые частые проблемы, что нам приходилось решать.

Про каждую расскажу подробнее.

Если вы так же, как и мы, соберетесь сделать кастомизированный движок, вам понадобится достаточно большое количество качественных параллельных данных. Большой движок можно обучить на количестве от 10 тыс. предложений, в нашем случае мы подготовили 135 тыс. параллельных предложений.

Не на всех типах текста ваш движок покажет одинаково хорошие результаты. В технической документации, где есть длинные предложения, структура, пользовательская документация и даже в интерфейсе, где есть короткие, но однозначные кнопки, скорее всего, у вас все будет хорошо. Но возможно, как и у нас, вы столкнетесь с проблемами в маркетинге.

Мы проводили эксперимент, переводя плейлисты музыки, и получили такой пример.

Вот что думает машинный переводчик про звездных фабриканток. Что это ударники труда.

При переводе через машинный движок контекст не учитывается. Тут уже не такой смешной пример, а вполне реальный, из технической документации Директа. Казалось бы, тех - понятно, когда ты читаешь техническую документацию, тех - это техническое. Но нет, машинный движок не попал.

Еще придется учитывать, что качество и смысл перевода будет сильно зависеть от языка-оригинала. Переводим фразу на французский с русского, получаем один результат. Получаем похожую фразу с таким же смыслом, но с английского, и получаем другой результат.

Если у вас, как и в нашем тексте, большое количество тегов, разметки, каких-то технических особенностей, скорее всего вам придется их отслеживать, править и писать какие-то скрипты.

Вот примеры реальной фразы из браузера. В круглых скобках техническая информация, которая не должна переводиться, в частности множественные формы. В английском они на английском, и в немецком тоже должны остаться на английском, но они переведены. Вам придется отслеживать эти моменты.

Машинный движок ничего не знает про ваши особенности именования. Например, у нас есть договоренность, что Яндекс.Диск мы везде называем на латинице во всех языках. Но на французском он превращается в диск на французском.

Аббревиатуры иногда распознаются корректно, иногда нет. В данном примере BY, обозначая принадлежность к белорусским техническим требованиям по размещению рекламы, превращается в предлог в английском.

Один из моих любимых примеров - новые и заимствованные слова. Тут классный пример, слово дисклеймер, «исконно русский». Терминологию придется выверять для каждой части текста.

И еще одна, уже не такая значительная проблема - устаревшее написание.

Раньше интернет был новинкой, во всех текстах писался с большой буквы, и когда мы обучали наш движок, везде интернет был с большой буквы. Сейчас новая эра, интернет уже пишем с маленькой буквы. Если вы хотите, чтобы ваш движок продолжал писать интернет с маленькой буквы, вам придется его переобучать.

Мы не отчаивались, решали эти проблемы. Во-первых, меняли корпусы текстов, пробовали на других тематиках переводить. Мы передавали наши замечания коллегам из Яндекс.Переводчика, повторно обучали нейросеть и смотрели на результаты, оценивали, и просили доработать. Например, распознавание тегов, обработку HTML разметки.

Я покажу реальные варианты использования. У нас хорошо идет машинный перевод для технической документации. Это реальный кейс.

Вот фраза на английском и на русском. Переводчик, который занимался этой документацией, был очень воодушевлен адекватным выбором терминологии. Еще пример.

Переводчик оценил выбор is вместо тире, что тут поменялась структура фразы на английскую, адекватный выбор термина, которая является верным, и слово you, которого нет в оригинале, но он делает этот перевод именно английским, естественным.

Еще один кейс - переводы интерфейсов на лету. Один из сервисов решил не заморачиваться с локализацией и переводить тексты прямо во время загрузки. Но после изменения движка примерно раз в месяц слово «доставка» менялось по кругу. Мы предложили команде подключить не обычный нейросетевой движок, а наш, обученный на технической документации, чтобы использовался всегда один и тот же термин, согласованный с командой, который уже есть в документации.

Как это все действует на денежный момент? Исконно так сложилось, что в паре русский-украинский требуется минимальная редактура украинского перевода. Поэтому мы пару месяцев назад решили перейти на систему постэдитинга. Вот как растет наша экономия. Сентябрь еще не закончился, но мы прикинули, что мы сократили наши затраты на постэдитинг приблизительно на треть на украинском, и дальше собираемся редактировать практически все, кроме маркетинговых текстов. Слово Ирине для подведения итогов.

Ирина:
- Для всех становится очевидным, что пользоваться этим надо, это уже является нашей реальностью, и исключать это из своих процессов и интересов нельзя. Но нужно подумать о нескольких вещах.

Определитесь с тем типов документов, контекста, с которым вы работаете. Подходит ли эта технология конкретно для вас?

Второй момент. Мы разговаривали про Яндекс.Переводчик, потому что мы в хороших отношениях, у нас прямой доступ к разработчикам и так далее, но по факту вам нужно определиться - какой из движков будет наиболее оптимальным для вас конкретно, для вашего языка, вашей тематики. Этой теме будет посвящен следующий доклад . Будьте готовы, что пока еще есть трудности, разработчики движков все вместе работают над решением трудностей, но пока они еще встречаются.

Хотелось бы понять, что нас ждет в дальнейшем. Но по факту, это уже не дальнейшее, а наше нынешнее время, то, что происходит здесь и сейчас. Нам всем скорее нужна кастомизация под нашу терминологию, под наши тексты, и это то, что сейчас становится публичным. Теперь все работают над тем, чтобы вы не ходили внутрь компании, не договаривались с разработчиками конкретного движка, как бы это оптимизировать под вас. Вы сможете это получать в публичных открытых движках по API.

Кастомизация идет не только по текстам, но и по терминологии, по настройке терминологии под ваши собственные нужны. Это достаточно важный момент. Вторая тема - интерактивный перевод. Когда переводчик переводит текст, технология позволяет ему предсказывать следующие слова с учетом исходного языка, исходного текста. Это оже существенно может облегчать работу.

О том, что сейчас действительно дорого. Все думают, как меньшими объемами текста обучить какие-то движки гораздо более эффективно. Это то, что происходит везде и запускается повсеместно. Думаю, тема очень интересная, а дальше будет еще интереснее.

Действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия. Современный машинный, или автоматический перевод осуществляется с помощью человека: пред-редактора, который тем или иным образом предварительно обрабатывает подлежащий переводу текст, интер-редактора, который участвует в процессе перевода, или пост-редактора, который исправляет ошибки и недочеты в переведенном машиной тексте.

Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L 1 – L 2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.

Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода:

1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы.

2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of , in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, синтаксических функций словоформ в данном тексте и пр.), производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани , ножницы глагол должен стоять в форме множественного числа, при том что в оригинале может быть и единственное число).

4. Синтез выходных словоформ и предложения в целом на выходном языке.

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках).

Действующие системы машинного перевода ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком (переводчиком или редактором), в содержание термина «машинный перевод» входит представление о том, что главную, бóльшую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя, оставляя человеку лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий; при этом, однако, в такого рода словарях в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода.

В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц в год), если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для пост-редактирования. Такого рода системы машинного перевода используются в организациях, потребности которых в оперативных и качественных переводах достаточно велики.

Теоретической основой начального (конец 1940-х – начало 1950-х годов) периода работ по машинному переводу был взгляд на язык как кодовую систему. Пионерами МП были математики и инженеры. Описания их первых опытов, связанных с использованием только что появившихся ЭВМ для решения криптографических задач, были опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как исследовательской области обычно считают март 1947; именно тогда специалист по криптографии Уоррен Уивер в своем письме Норберту Винеру впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.

Тот же Уивер после ряда дискуссий составил в 1949 меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. Вскоре началось финансирование исследований; в 1952 состоялась первая конференция по машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом.

Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 английским математиком А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественноязыковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками, с одной стороны, и лингвистами – с другой установилось продуктивное сотрудничество.

В 1954 общественности были предъявлены первые результаты: фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первый эксперимент (вошедший в историю под названием Джорджтаунского), в ходе которого система, использовавшая словарь из 250 слов и грамматику из 6 синтаксических правил, осуществила перевод 49 заранее отобранных предложений. В том же 1954 первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны.

Идея машинного перевода стимулировала развитие исследований в теоретическом и прикладном языкознании во всем мире. Появились теории формальных грамматик, большое внимание стало уделяться моделированию языка и отдельных его аспектов, языковой и мыслительной деятельности, вопросам языковой формы и количественных распределений лингвистических явлений. Возникли новые направления лингвистической науки – вычислительная, математическая, инженерная, статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и теоретического языкознания. В течение 1950-х годов в учебных центрах многих стран мира были открыты отделения прикладной лингвистики и машинного перевода. Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова, МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале, Ленинградском университете, в университетах Киева, Харькова, Новосибирска, ряда других городов. Исследования и разработки по машинному переводу развернулись также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах, Болгарии, Венгрии и других странах, а также в международных организациях, где велик объем переводов с различных языков. В настоящее время исследования по МП ведутся и в таких странах, как Малайзия, Саудовская Аравия, Иран и др.

Исследования по машинному переводу за свою пятидесятилетнюю историю переживали как подъемы, так и спады. В начале 1960-х годов завершился первоначальный эйфорический этап в развитии МП, чему в сильнейшей степени способствовала публикация так называемой «Черной книги машинного перевода» – доклада Специального комитета по прикладной лингвистике (ALPAC) Национальной академии наук США, в котором была констатирована невозможность создания в обозримом будущем универсальных систем высококачественного машинного перевода. Следствием этой публикации было сокращение финансирования и общее снижение интереса к проблематике МП, однако полного сворачивания исследований, в особенности теоретических, не произошло.

Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП (датой ее рождения обычно считают 1956), получила название искусственного интеллекта , а создание систем машинного перевода было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов.

Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

В ходе развития идей и создания промышленных систем машинного перевода были разработаны способы автоматического морфологического анализа для основных европейских языков, методы автоматического обнаружения синтаксических структур, сформулированы требования к семантическим компонентам систем. В рамках эффективного международного сотрудничества и обмена терминологией созданы большие автоматические словари с разнообразной лексической информацией, банки терминологических данных по разным тематическим областям (например, словарь ЕВРОДИКАТОМ и ряд других словарей, тематика которых определялась тем обстоятельством, что практический машинный перевод чаще всего имеет дело с научными и техническими текстами). Результаты работ по МП способствовали началу и развитию исследований и разработок в области автоматизации информационного поиска, логического анализа естественно-языковых текстов, экспертных систем, способов представления знаний в вычислительных системах и т.д.

В СССР в качестве головной организации по машинному переводу был в 1974 определен Всесоюзный центр переводов научно-технической литературы и документации (ВЦП), взявший на себя координацию работ в масштабе страны. Под его эгидой был проведен ряд крупных международных научных конференций (1975, 1979, 1983, 1985, 1989) по машинному переводу и проблемам научно-технического перевода. В ВЦП были созданы промышленные системы машинного перевода с английского языка на русский АМПАР (на основе исследований и разработок коллектива Ю.А.Моторина), с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные системы МП для персональных компьютеров семейства СПРИНТ. В ВПЦ была также разработана система МП с русского языка на английский АСПЕРА. Большой вклад в разработку промышленных систем МП был сделан ленинградской общесоюзной группой «Статистика речи» под руководством Р.Г.Пиотровского, а также группами специалистов по компьютерной лингвистике в Минске (А.В.Зубов), Кишиневе (В.А.Чижаковский), Махачкале (А.И.Чапля), Чимкенте (К.Б.Бектаев), Самарканде (Х.А.Арзикулов) и др. На базе исследований и научно-практического подхода группы «Статистика речи» были впоследствии разработаны и сейчас находятся в коммерческом использовании такие системы машинного перевода, как Stylus, Socrat и другие.

В настоящее время в Российской Федерации продолжаются в незначительных масштабах некоторые работы по системам МП, основанным на подходе «текст-смысл-текст», не всегда явно проговариваемым лозунгом которого в момент обоснования этого подхода в 1960-х годов был «машинный перевод без перевода, без машин, без алгоритмов» (см. обзор работ этого направления, принадлежащий Л.Н.Беляевой и М.И.Откупщиковой). Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист и математик. В рамках этих исследований были получены значительные теоретико-лингвистические результаты (в частности, создана теория так называемых лексических функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным. Все практические системы без исключения используют идею переводных соответствий, т.е. в их основе лежит модель «текст-текст» и они реализуют краткую схему перевода Неизмеримо выросшие за последние десятилетия возможности вычислительной техники и новые программистские подходы никак не могут помочь реализовать идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом к смыслу. Выявление содержания текста в рамках человеко-машинного интерфейса может производиться, как и во всякой прикладной задаче, только с использованием как декларативных, так и процедурных знаний и при значительной опоре на лексику. Эта точка зрения обоснована, в частности, в недавних работах отечественного специалиста по программированию и искусственному интеллекту А.С.Нариньяни.

За рубежом эксплуатируется целый ряд систем машинного перевода. Наиболее известной из их числа является система SYSTRAN, разработанная и поддерживаемая компанией SYSTRAN Software Inc. и используемая службой машинного перевода при комиссии Европейского союза. Данная служба, объем переводов в которой составляет около 2,5 млн. страниц в год, использует систему SYSTRAN для перевода с английского на немецкий, французский, испанский, греческий и итальянский языки, а также с французского на английский, испанский и итальянский. В практической эксплуатации находится ряд практических систем исследовательского центра Гренобля (Франция), систему CULT (Гонконг, ныне КНР) и ряд других. На рынке коммерческого машинного перевода предлагаются системы таких фирм, как Logos Corp., Globalinc Inc., Toshiba Corp., CompuServe и др., в том числе и санкт-петербургская компания ПроМТ, выпустившая под названием PROMT 98 усовершенствованную версию популярной системы Stylus.

Проблематика машинного перевода находит свое отражение в регулярно проводимых международных конференциях по вычислительной лингвистике COLING, а также на международных конференциях по машинному переводу MT SUMMIT.

Технические инновации 1990-х годов (значительное расширение возможностей персональных компьютеров, появление качественных и доступных массовому пользователю сканеров и эффективных программ оптического распознавания текста, а также развитие глобальной компьютерной сети Internet и средств доступа к ней) придали новый стимул работам по МП, привлекли в данную область новые значительные инвестиции и увенчались серьезными практическими результатами – появлением достаточно эффективных систем машинного перевода и компьютерных словарей для работы на персональном компьютере (в том числе продуктов отечественных компаний ПроМТ, «Бит», «Арсеналъ», отчасти уже упомянутых выше); объединением систем МП с системами оптического распознавания текста и проверки орфографии; созданием специальных средств МП для работы в Internet, обеспечивающих либо перевод текстов на серверах соответствующих компаний, либо онлайновый перевод Web-страниц. В сочетании с пониманием ограничений МП и реалистической формулировкой целей его использования (прежде всего, это ознакомительно-реферативные цели, что хорошо соответствует базовой идеологии Internet как средства «навигации в информационном море») все это позволяет говорить об органичном встраивании систем МП в общий процесс формирования глобального информационного общества.

Эффективность работы современной системы МП в решающей степени зависит от ее удачной настройки на конкретный подъязык (или микроподъязык) естественного языка, на определенную лексику и ограниченный набор грамматических средств, характерных для текстов данной предметной области, а также на определенные типы документов. Учение о подъязыках с точки зрения машинного перевода было впервые сформулировано Н.Д.Андреевым (Ленинградский университет) в 1967, хотя представления о языковых регистрах, стилях, жанрах письменного текста и т.п. были хорошо известны и в традиционной лингвистике. Подъязык, с точки зрения МП, определяется в первую очередь некоторым исходным набором текстов, в рамках которого определяется входной и выходной словари, степень распространения и характер лексической неоднозначности лексем, характер и распространенность синтаксических конструкций, способы их перевода в данной языковой паре и пр. Большую роль играют параллельные тексты и словари-конкордансы, с помощью которых можно достаточно эффективно изучить и использовать в составлении алгоритмов лексическую сочетаемость и дистрибуцию (распределение) языковых элементов в речи (дискурсе, тексте). Статистические характеристики подъязыков помогают упорядочить структуру соответствующих алгоритмов анализа и синтеза. Выходной словарь, ориентированный на потребности синтеза и передачи основных видов соответствий в конкретной языковой паре, обеспечивает приемлемый выходной текст. В любом из современных видов машинного перевода необходимо участие человека-редактора, удобство работы которого обеспечивается качеством и надежностью соответствующего программного обеспечения.

Перспективы развития машинного перевода связаны с дальнейшей разработкой и углублением теории и практики перевода, как машинного, так и «человеческого». Для развития теории важны результаты сопоставительного языкознания, общей теории перевода, теории закономерных соответствий, способов представления знаний, оптимизации и совершенствования лингвистических алгоритмов. Новые и более эффективные словари с необходимой словарной информацией, строгие теории терминологизации лексики, теория и практика работы с подъязыками помогут повысить качество перевода лексических единиц. Формальные грамматики, ориентированные на перевод, дадут возможность оптимизировать алгоритмы нахождения переводных соответствий в данной коммуникативной ситуации, которая может быть описана в рамках соответствующих прикладных теорий представления знаний. Наконец, новые возможности программирования и вычислительной техники также будут вносить свой вклад в совершенствование и дальнейшее развитие теории и практики машинного перевода.