УЧЕБНИКИ И УЧЕБНЫЕ ПОСОБИЯ
СОДЕРЖАНИЕ ДИСЦИПЛИНЫ, СТРУКТУРИРОВАННОЕ ПО ТЕМАМ
Тема 1. ОСНОВНЫЕ ПОНЯТИЯ КУРСА «КВАНТИТАТИВНАЯ ЛИНГВИСТИКА И НОВЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ»
Общее понятие «прикладная лингвистика». Различия в понимании задач и специфики прикладной лингвистики на западе и в России. Связь прикладной лингвистики с другими науками.
История возникновения и динамика развития идей и направлений прикладной лингвистики.
Основные направления прикладной лингвистики. Прикладная лингвистика, квантитативная лингвистика, компьютерная лингвистика. Ведущие методы, применяемые в различных направлениях прикладной лингвистики.
Общее понятие «информационные технологии».
«Электронный ресурс» как общее понятие. Виды электронных ресурсов и принципы их классификации. «База данных» как совокупность определенным образом упорядоченных сведений о некоторых объектах. Различные трактовки понятия «корпус данных». Различные трактовки понятия «гипертекст».
Задачи использования возможностей квантитативной лингвистики и новых информационных технологий в профессиональной деятельности выпускника магистратуры по направлению «Теория обучения иностранным языкам и межкультурная коммуникация».
Литература: обязательная 1-2, дополнительная 1-6.
Тема 2. КВАНТИТАТИВНАЯ ЛИНГВИСТИКА
Статистическая обработка экспериментальных данных: изучение варьирующихся признаков (количественных, качественных, ветвящихся). Генеральная совокупность данных и качественная достоверность выборки.
Дешифровка сообщений или текстов для обнаружения информации, представленной способом, не известным исследователю. Понятия «шифр» и «код». Различия задач криптографии и дешифровки. «Машинная дещифровка».
Позиционная статистика как основной метод изучения неизвестных текстов. Этапы применения метода позиционной статистики: разбиение непрерывного текста на отдельные блоки, анализ морфологии слова; прием «окружения» слова.
Комбинаторный метод как дешифровка «изнутри» и «извне».
Атрибуция (авторизация) сообщения или текста; области применения в различных
целях.
Формально-количественные методы и выявление особенностей языка автора, реализующихся на подсознательном уровне.
Программный комплекс «Атрибуция»: принципы его работы, получаемые результаты.
Автоматизированные системы перевода. Машинный фонд языка.
Литература: обязательная 1-2, дополнительная 1-6.
Тема 3. КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ В ИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЯХ
Компьютерные словари и их классификация. Особенности электронного словаря, существующего в среде многомерного гипертекста. Электронные библиотеки. Электронные энциклопедии. Конкордансы. Ассоциативные тезаурусы и возможности их использования для разных целей. Возможности использования одноязычных и многоязычных электронных словарей для формирования корпуса данных при проведении исследований в различных целях.
Задачи и специфика корпусной лингвистики как науки, занимающаяся разработкой общих принципов построения и использования языковых корпусов данных с применением компьютерных технологий. Способ отбора текстов (sampling). Представленность (representativeness) определенных явлений в том или ином корпусе. Типы корпусной разметки. Основные виды корпусов и возможности их использования для решения учебно-методических и научно-исследовательских задач. Проблемы перевода и их решение с применением Больших Корпусов данных, созданных на базе различных языков. Значимость корпусов национальных языков для решения проблем межкультурной коммуникации; использование в целях обучения языкам (родному, второму / иностранному).
Вопросы формирования базы данных на основе электронных словарей и корпусов национальных языков. Возможности количественного и качественного анализа отобранного корпуса данных. Представление результатов статистической обработки и продуктов качественного анализа материалов с помощью рисунков, диаграмм и т.д.
Решение задач практического применения информационных технологий в исследовании языковых явлений разных уровней. Пути применения информационных технологий в решении задач переводоведения. Специфика применения информационных технологий в решении задач межкультурной коммуникации. Информационные технологии в решении задач обучения языкам.
Литература: обязательная 1-2, дополнительная 1-6.
Тема 4. АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТА
Основные задачи автоматического анализа текста и области его применения.
Лингвистическое обеспечение поисково-информационных систем: автоматическая рубрикация документов; автоматическая классификация (разбиение текстов на группы в соответствии с заданным классификатором) и кластеризация текстов (на основании тематически близкого содержания); автоматическое реферирование (генерация текстов из наиболее значимых предложений документа или группы документов).
Задачи извлечения информации из текста. Более глубокий анализ извлеченной информации - извлечение знаний (data mining): наименований сущностей (персон, географических названий и т.п.); извлечение фактов; извлечение мнений; автоматическое реферирование.
Системы, моделирующие языковое взаимодействие компьютера с человеком.
Автоматическая обработка звучащей речи и прикладная фонетика.
Лингвистические компоненты автоматического анализа текста: токенизация (выделение слов и границ предложений), морфологический анализ (приведение всех форм слова к одной словоформе), модуль синтаксического анализа, модуль семантического анализа, модуль разрешения анафоры.
Литература: обязательная 1-2, дополнительная 1-6.
Тема 5. ТЕКСТОВЫЕ ПРОЦЕССОРЫ
Лингвистический процессор как посредник между пользователем и базой данных, в которой хранится интересующая его информация; выполняемые им цели и задачи. Операции, выполняемые лингвистическим процессором. Уровни анализа. Лексический анализ: задачи, ход, результат.
Морфологический анализ, его задачи. Методы морфологического анализа: декларативный, процедурный, комбинированный, вероятностно-статистический; их достоинства и недостатки.
Синтаксический анализ, его задачи. Формально-грамматический и вероятностно-статистический подходы к синтаксическому анализу. Этапы синтаксического анализа: предсинтаксический, собственно синтаксический, постсинтаксический анализ - предложение преобразуется в последовательность базовых текстовых единиц (ПБТЕ), которые соответствуют отдельным словам и знакам препинания.
Семантический анализ, его задачи. Этапы семантического анализа: поверхностный, глубинный, прагматический. Понятие семантического узла. Источники информации о связях: данные из синтаксического анализатора и словарей-тезаурусов. Системы: синтагм и парадигм отношений между лексемами как основа семантического анализа. Роль толково-комбинаторных словарей и тезаурусов в семантическом анализе текста.
Области применения текстовых процессоров как внутренних трансляторов. Внутренние трансляторы (с одних языков индексирования на другие и на ИПЯ).
Литература: обязательная 1-2, дополнительная 1-6. |