Автоматические определители языков

Главная → Автоматические определители языков
Иногда мы сталкиваемся с текстом на незнакомом нам языке. Стандартные способы определения языка не помогают. Как узнать, на каком языке он написан? В этом вам помогут автоматические определители языков.

Как работает определитель языка (guesser)

Автоматический определитель языка называют иногда guesser. Он позволяет по введенным нескольким словам определить язык, на котором они написаны. Технически, определение языка реализуется при помощи словаря.

Введенный текст разбивается на слова, и они сравниваются со словами из базы определителя. В результате подсчитывается количество совпадений слов разных языков, и выводится отчет в виде названия одного языка или списка языков, которые были признаны наиболее подходящими.

Однако, работа автоматического определителя языка не так проста: система должна учитывать лексические особенности языков, правила построения предложений, различия в диалектах, и другие особенности. Поэтому, сервисы автоматического определения языка предоставляются обычно разработчиками систем машинного перевода. Результат определения языка не может быть 100% точным. Обычно определитель языка также сообщает, с какой вероятностью ему удалось определить язык. Чем больше символов текста вы укажете, тем более точным будет определение. Для вашего удобства на этой странице мы собрали несколько таких систем, каждая из которых работает по своему алгоритму. Отправить запрос на определение языка не составит труда, достаточно ввести текст в одну из представленных на странице форм.

Бесплатный определитель языка онлайн

Здесь вы можете определить язык любого текста. Укажите небольшой фрагмент текста (не более 500 символов), язык которого требуется определить. Распознавание языка введенного текста осуществляется специальным алгоритмом онлайн-сервиса переводов. То есть это не совсем определитель языка, а онлайн-переводчик, в котором не указан язык исходного текста. В процессе перевода язык будет определен автоматически, вы увидите его название в поле слева сверху (рядом с надписью Определен автоматически).
Определение языка сервисом Google Translate
 

Автоматический определитель языка от WhatIsLanguage

Определение языка сервисом от WhatLanguage
 
Если при определении языка возникают проблемы с кодировкой, попробуйте вводить текст непосредственно на официальной странице сервиса.

Автоматический определитель языка от Xerox

Определитель языка от Xerox основан на экспериментальных разработках компании. Кроме определения языка система также также распознает кодировку. Эффективность определения языка этой системой — высокая. Поддерживаются большинство распространенных языков мира.

Автоматический идентификатор языка Translated Labs

Определитель языка разработан исследовательским центром Translated Labs (T-Labs), который занимается изучением семантики языков и разработкой языковых моделей для создания автоматизированных комплексов по работе с информацией: поисковых систем, систем анализа данных, систем машинного перевода.
Определение языка сервисом Translated Labs
 

Автоматический распознаватель языка Talenknobbel

Экспериментальный проект по созданию системы идентификации языка любого текста, в данный момент на сайте представлена уже вторая версия системы Talenknobbel v2.0. При анализе текста используется статистический метод, текст разбивается на слова, которые затем ищутся в словаре. Чем больше найдется совпадений, тем более точным будет результат. Следует учесть, что в словаре присутствуют только наиболее распространенные слова, поэтому для сложных текстов идентификация может быть неточной.
Определение языка сервисом Talenknobbel
 
Если при определении языка возникают проблемы с кодировкой, попробуйте вводить текст непосредственно на официальной странице сервиса Talenknobbel.

Как повысить правильность определения языка

При использовании систем автоматического определения языка текста необходимо знать некоторые особенности:
  • Текст должен состоять из не менее чем 20-ти слов (чем больше, тем лучше).
  • Проверяйте текст на ошибки перед определением языка.
  • Вводите в определитель ту часть текста, которая позволит эффективнее определить язык (например, слова с присутствием нестандартных букв, надстрочных и подстрочных символов, и т.д.).
  • Для более точного результата воспользуйтесь несколькими сервисами.

Автоматический определитель языка TextCat

Определитель языка TextCat — реализация алгоритма классификации текста (W. B. Trenkle и J. M. Trenkle, «N-Gram-Based Text Categorization»), который был представлен на третьем ежегодном симпозиуме по технологиям анализа документов и поиска информации, проходившем в Лас-Вегасе в апреле 1994 года. Определитель поддерживает 69 языков. К сожалению, онлайн-версия определителя больше недоступна, но вы можете детально ознакомиться с проектом и получить исходные коды алгоритма на его официальной странице.

Автоматический определитель языка Verbix

Определитель языка создан независимой некоммерческой организацией Verbix, основной деятельностью которой является сохранение языкового разнообразия на нашей планете. Множество языковых инструментов доступно на официальной странице Verbix.

Определитель языка Полиглот 3000 (программа для Windows)

Разработчик: Likasoft
Тип лицензии: Freeware
Требования: 95/98/NT/ME/2000/XP/Vista
Полиглот 3000
Полиглот 3000 — это уникальный автоматический определитель языка, предназначенный для быстрого и корректного ответа на вопрос: «На каком языке написан текст?». Программа распознает более 400 языков, быстро и качественно определяет язык введенного текста, имеет многоязычный интерфейс. Программа бесплатна, и будет полезна всем, кто постоянно сталкивается с иностранными языками или часто задает вопрос «Какой это язык?». Подробнее о Полиглот 3000 →

Как определить язык текста?

Если вы столкнулись с текстом на незнакомом вам языке, и если у вас возник вопрос «Какой это язык?», можно попробовать определить его самостоятельно. Это не так уж и сложно. В каждом языке есть свои определенные особенности, которые помогают его распознать: набор знаков, подстрочных и надстрочных символов, направление письма, и пр. Наверняка вы без труда сможете распознать основные языки.

Вы также можете просто воспользоваться одним из автоматических определителей языка. В этом случае от вас вообще не требуется никаких усилий, достаточно просто вставить текст в определитель.

Определить, на каком языке написан текст, может потребоваться, например, для того, чтобы воспользоваться онлайн-переводчиком. Некоторые переводчики умеют самостоятельно определять язык, но большая часть из них требуют указания языка вручную. Для автоматического определения языка текста онлайн-переводчиком следует или выбрать в качестве исходного языка вариант Автоматически или просто не указывать его вовсе (в зависимости от системы).