Языки не знакомые миру

10 самых редких в мире языков, которые стоит, если не выучить, то хотя бы услышать

языки не знакомые миру

Русский язык — восьмой по распространённости в мире в качестве родного СССР ещё и Монголию. Русский язык не входит в топ-7 самых .. так что в незнакомом иероглифе скорее всего будут знакомые части. знакомые бабочкам, никогда не предпринимались ни одним человеческим взаимодействия языков (мы имеем в виду и языки различных дисциплин. 10 самых редких в мире языков, которые стоит, если не выучить, существами, не знакомыми с земными языками и синтаксисом.

Или ещё это может быть словарь. Там тоже будет слово, которое мы искали, но не будет текста. Неожиданностью для нас стали музыкальные сайты. На них лежат mp3 многочисленных народных или авторских песен на малом языке. Текстов там тоже нет, но есть подходящие под запрос короткие фразы — названия музыкальных произведений.

15 самых странных языков мира

Для некоторых языков эти сайты настолько многочисленны, что забивают всю выдачу. Мы решили, что раз мы ищем тексты, это тоже не наши клиенты. Надо как-то отсечь лишнее.

языки не знакомые миру

Первый фильтр можно ввести ещё на этапе обращения к поисковику. Если маркеров для языка у нас несколько, то поймав какой-то домен подному, мы можем спросить у поисковой машины, встречаются ли на том же сайте и другие слова из нашего списка.

Если да, то есть вероятность, что мы попали на тот самый, нужный нам сайт. Если же один маркер там есть, а остальные не представлены, то мы с высокой вероятностью держим в руках пустышку.

Оно удовлетворяет всем перечисленным выше критериям слова-маркера. Но вот в чём штука. Наш фильтр поможет понять, опечатка это в русском тексте, или и правда хакасский текст. Штука в том, что это дополнительные запросы, которых и так-то мало.

Не всё однозначно и со списком сайтов, на которых нашлись нужные нам тексты. Если мы планируем не просто найти эти сайты, но и выкачать их, чтобы составить корпус, то нам надо знать глубину, на которую потом следует производить выкачку.

Мы поделили все найденные домены на три категории всё это тоже можно узнать, задавая правильные запросы Яндексу. В первую попали те, на которых много предположительно — большинство страниц содержат тексты на интересующем нас языке.

языки не знакомые миру

Во второй оказались те, на которых есть несколько не слишком много по сравнению с общим числом страниц документов на интересующем нас языке. К третьей мы отнесли те огромные сайты с миллионами страниц, на которых в том числе есть и интересующий нас контент. Кроме того, мы специально спрашивали у Яндекса про то, где он находит интересующие нас слова в социальной сети VK.

Из полученных страниц отбирали только сообщества, потому что считали, что в среднем двуязычный пользователь, скорее, будет общаться на своём языке в специальном месте в этом самом сообществеа на собственной стене будет писать, скорее, по-русски, уважая чувства русскоязычных друзей.

Это, конечно, не всегда. Но в целом. Определение языка В результате мы получили списки сайтов и сообществ в VK. Сейчас эти списки уже устарели: Но по состоянию на начало года это довольно правдивая информация о том, как устроен Интернет на малых языках России.

Следующим шагом было всё это скачать. С задачей мы в полной мере не справились. Выкачку многих десятков разнообразных сайтов для крупных языков вроде татарского или удмуртского, нам так и не удалось поставить на поток. Нужно ещё определить, что именно мы скачали.

Сайты, которые содержат интересующий нас контент, почти никогда не бывают моноязычными. Чтобы получить корпус текстов, которые затем смогли бы использовать лингвисты, а также чтобы понять, насколько тот или иной язык представлен в Интернете, нужно очистить полученные веб-страницы от обвязки и от текстов на других языках.

ГОВОРЮ НА 10 ЯЗЫКАХ - 10 ЯЗЫКОВ ЧЕЛЛЕНДЖ

Обычно в компьютерной лингвистике для этого применяется статистика распределения знаков чаще — последовательностей знаков, ngram в тексте. Если у нас уже есть какой-то корпус текстов на разных языках, мы можем натренировать на нём модель, и дальше успешно определять, какой язык перед нами.

Но проблема в том, что у нас как раз такого заранее заданного корпуса. Мы только пытаемся его сделать. Но если вдуматься, то всё-таки всё не совсем. У нас, скорее всего, есть два языка, отличия между которыми мы должны найти. Один язык — некоторый малый язык без разницы, якутский или чувашскийа второй — русский.

Их мы и должны отделить друг от друга. В таком виде задача уже приобретает выполнимые очертания. То есть нам нужно про каждый, скажем, абзац текста сказать, написан он на русском языке или. Если не на русском, значит, это наш клиент. Определялка не везде и не всегда работала хорошо, но в целом, скорее, удовлетворительно.

языки не знакомые миру

Результаты Итак, у нас есть тексты. У нас есть данные о сайтах и сообществах. Что с ними теперь можно сделать? Как минимум, можем выполнить самую базовую программу и отдать собранные тексты лингвистам. У нас уже есть корпуса бурятскогоудмуртскоготатарскогохакасского языков. Но ещё можно что-то попробовать понять про представленность самого языка в Сети. Много там текстов на этом языке или мало?

А если сравнить с тем, как живёт язык в оффлайне, то его интернет-самочувствие выглядит так же или не так? Сайты Для начала посчитаем, сколько вообще сайтов доменных имён получается на каждый язык. А кем они регистрируются? Это вообще всё частная или государственная инициатива — выкладывать тексты на малых языках в Интернете? В принципе, какие-то активисты есть, но большей частью ответственность здесь на организациях.

А когда сайты регистрировались? Видно, что процесс шёл по нарастающей, но после года наступил резкий спад. Наверное, потому что вся активность подобного рода перетекла в набравшие авторитет социальные сети. Прежде всего, в vk. Теперь попробуем анализ данных. Вот у нас есть показатели для языка в онлайне: И у нас есть показатели для языка в оффлайне прежде всего, число носителей, но не только, ещё есть кое-какие экономические показатели регионов, в которых большей частью живут носители языка.

Но Энциклопедия Северо-Восточной Индии указывает на то, что бирманцы относятся к анальцам как к "Кхон", что означает "грязные люди". Вероятно, на наиболее трудном языке на Земле — туюка - разговаривает коренная этническая группа из людей, которые живут в джунглях Колумбии и бразильской Амазонии.

Мировое распространение языков / Habr

В то время как большинство языков имеют несколько очень простых родов, такие как мужской или женский, в туюка, по разным оценкам,насчитывается от 50 до родов существительных, что делает его чрезвычайно сложным для изучения. И мало того — в языке есть множество специальных глагольных окончаний. Например, окончание "-Wi" означает "я знаю, потому что я видел это", а "-hiyi" означает "я предполагаю, что так может быть".

Язык, на котором говорят коренные жители Канарских островов, сильбо гомеро, имеет всего две гласные и четырех согласных, а вместо обычной речи используется свист. Язык произошел от одного из диалектов испанского языка, где все гласные и согласные были заменены на свистящие звуки. Свистразличается по высоте и продолжительности, и при этом в нем сохранена примерная артикуляция обычной речи. В году д-р Ханс Фройденталь опубликовал книгу под названием.

Фройденталь считал, что такой язык должен быть легко понят существами, не знакомыми с земными языками и синтаксисом. Натуральные числа в нем состоят из серии повторяющихся импульсов, разделенных паузами. В течение многих десятилетий линкос был разве что предметом теоретических дискуссий, пока в году астрофизики не закодировалисообщение в линкосе и отправили его при помощи радиотелескопа к ближайшим звездам.

Эксперимент был повторен в году. Ответа так и не было получено. Его режиссер и автор сценария Джеймс Кэмерон, продумал свой мир настолько серьезно и детально, что он нанял д-ра Пола Фроммера, заслуженного профессора из Университета Южной Калифорнии, чтобы создать собственный язык специально для фильма. Король, без сомнения, является самым любимым и почитаемым человеком во всем Таиланде.

языки не знакомые миру

Говоря о королевской семье, либо обращаясь к ее членам, тайцы используют особый язык, известный как "рачасап", что означает "королевский язык". Этой традиции уже более семисот лет и она является неотъемлемой частью тайской культуры.

Большинство тайцев знают этот язык, но очень немногие могут говорить на нем правильно. Тем не менее, рачасап можно услышать практически ежедневно на телевидении и радио всякий раз, когда что-то говорят о короле или членах его семьи. Впервые опубликованный в интернете в году, этот язык был разработан переводчиком и лингвистом Соней Ланг из Торонто.

Токи-Пона имеет всего 14 фонем и базовых слов, и использует буквы латинского алфавита. По крайней мере, человек говорят на токи-пона свободно.