разное

Параллельный бьет в корпус

Я пару недель назад ввалился на zoom-конференцию от Вышки, где рассказывали про интересную задумку — сделать корпус из параллельных текстов на вэньяне и переводов на русский. Было интересно, особенно потому, что я оказался одним из “буйных” и задающих вопросы, среди аморфных студентов и уже запарившихся, и посему молчаливых, преподавателей. Впрочем, были и буйнее меня — потому что ссылка на zoom была открытая и молодежь в начале поразвлекла нас матами-перематами, пока их не отключили.

В любом случае, на конференции шла речь про будущее и про вэньянь, а я хочу поделиться тем, что у них уже есть сейчас и с путунхуа, цитирую:

Параллельный корпус — это собрание текстов сразу на двух языках: каждому предложению на языке Х соответствует предложение на языке Y.

Там можно:
• Найти примеры готовых переводов при помощи поиска по словам и выражениям в параллельных текстах из русской и китайской литературы, новостей и официальных документов;
• Найти примеры с использованием определённой грамматики благодаря расширенным поисковым инструментам корпуса;
• Проверить сочетаемость китайских слов и выражений.

Помимо поиска по словам, все тексты снабжены лингвистической разметкой — транскрипцией и грамматической информацией. Уже сейчас объем Корпуса более 3 миллионов слов…

Интересно? Тогда вот ссылка: https://ruzhcorp.github.io/
Хотите помочь проекту? Тогда пишите в сообщения паблика ВК https://vk.com/ruzh_corp или на почту корпуса ruzhcorp@yandex.ru