Центр лингвистической документации при Независимом Университете, созданный в октябре 2000 г., предназначен для координации исследовательской деятельности в области создания и использования электронных лингвистических ресурсов.
Приоритетные направления деятельности Центра - создание теоретических концепций компьютерной обработки, хранения и описания текстов и иных данных на естественных языках (машинных словарей, корпусов текстов, фонотек, баз данных, и т.п.), а также формирование общедоступной библиотеки лингвистических данных всех возможных типов.
В настоящее время отдельные усилия в этом направлении предпринимаются рядом исследовательских групп, однако отсутствует координация их деятельности и не решены многие теоретические проблемы, необходимые для успешного осуществления такого рода задач. В результате российское научное сообщество практически не имеет единого и профессионально организованного источника компьютеризованных данных по русскому или иностранным языкам.
Ближайшими практическими задачами Центра представляются в первую очередь следующие:
подготовка специалистов в области машинной обработки текстов и сбора данных на естественных языках; | |
создание общедоступного машинного корпуса литературных текстов русского языка XIX-XX вв., литературных текстов других европейских языков, снабженных программным обеспечением для хранения, поиска и лингвистических преобразований; | |
формирование машинного корпуса "глоссированных" текстов на языках малочисленных народов, находящихся под угрозой исчезновения (в первую очередь на языках народов России) с соответствующим программным обеспечением; участие в полевой работе по лингвистическому описанию этих языков; | |
формирование корпуса машинных словарей и тезаурусов русского и других языков; | |
формирование корпуса звучащих текстов на русском и других языках (машинной фонотеки) и программного обеспечения для работы с этими данными; | |
создание лингвистических баз данных различного характера (базы данных по грамматическим категориям, по ареальному распределению языковых свойств, и т.п.). |