Ученые с Дальнего Востока научат нейросеть русскому языку

Школа цифровой экономики Дальневосточного федерального университета планирует начать работу над созданием цифрового корпуса русского языка. Он нужен для обучения нейросетей и разработки синтетической личности на базе искусственного интеллекта.

Разработчики говорят, что аналоги корпусов существуют для французского, английского языков. Основа деятельности – сбор аудиокорпуса, а потом его размещение способом, который будет доступен машине.

В разработке проекта примут участие лингвисты, волонтеры из ДВФУ, эксперты по компьютерной лингвистике. Они будут делать разметку аудиоматериала: деление и проставление пауз, ударение, разделение на диалоги / монологи и так далее.

Один из разработчиков проекта объясняет целесообразность этого проекта необходимостью развития языков. Поскольку постепенно бесписьменные языки вымерли, а выжили только имевшие письменность, вероятность того, что языки, которых не будут знать и на которых не умеют разговаривать машины (принтеры, микроволновки, машины), под влиянием бурного развития технологий тоже под угрозой вымирания. Именно поэтому нужно оцифровывать язык и переводить его в модель, которая будет обучать нейросеть. Переводы ПО становятся крайне важной задачей в наше время.