Современные проблемы науки и образования. Корпусная лингвистика

Корпусная лингвистика - раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. В понятие «корпус текстов» входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.

Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:

  1. 1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;
  2. 2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;
  3. 3) однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в различных целях.

Можно сказать, что все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие современных интеллектуальных программных систем, предназначенных для обработки текстов на естественном языке, также требует большой экспериментальной лингвистической базы. Спрос на корпусные данные совпал с появлением соответствующих технических возможностей.

Первые лингвистические корпусы текстов появились в 60-е гг. прошлого столетия. В 1963 г. в Брауновском университете (США) впервые был создан большой корпус текстов на машинном носителе (Brown Corpus). Авторы корпуса У. Френсис (W. Francis) и Г. Кучера (H. Kucera) спроектировали его как набор из пятисот двухтысячесловных прозаических печатных текстов американского варианта английского языка. Тексты принадлежали пятнадцати наиболее массовым жанрам англоязычной печатной прозы США и были напечатаны в 1961 г. Корпус сопровождался большим количеством материалов его первичной статистической обработки — частотный и алфавитно-частотный словарь, разнообразные статистические распределения. Появление Брауновского корпуса вызвало всеобщий интерес и оживленные дискуссии. Прежде всего они коснулись принципов отбора текстов и состава потенциально решаемых на таком корпусе задач. Затем последовали Ланкастерский корпус английского языка (Lancaster-Oslo-Bergen Corpus, LOB), Уппсальский корпус русского языка. Среди современных корпусов английского языка наиболее известны Британский национальный корпус (British National Corpus), Международный корпус английского языка (International Corpus of English), лингвистический Банк английского языка (Bank of English) и др. В настоящее время корпусы созданы для многих языков мира (см. Приложение 1). Ведется работа и над созданием Национального корпуса русского языка.

В первой половине 90-х гг. корпусная лингвистика окончательно сформировалась как отдельный раздел науки о языке. При этом она тесно взаимодействует с компьютерной лингвистикой, используя ее достижения и в свою очередь обогащая ее.

Поиск в корпусе данных позволяет по любому слову построить конкорданс - список всех употреблений данного слова в контексте со ссылками на источник. Корпусы могут использоваться для получения разнообразных справок и статистических данных о языковых и речевых единицах. В частности, на основе корпусов можно получить данные о частоте словоформ, лексем, грамматических категорий, проследить изменение частот и контекстов в различные периоды времени, получить данные о совместной встречаемости лексических единиц и т.д. Представительный массив языковых данных за определенный период позволяет изучать динамику процессов изменения лексического состава языка, проводить анализ лексико-грамматических характеристик в разных жанрах и у разных авторов, и т.д. Корпусы призваны служить также источником и инструментом многоаспектных лексикографических работ по подготовке разнообразных исторических и современных словарей. Данные корпусов могут быть использованы для построения и уточнения грамматик и в целях обучения языку.

Можно сказать, что корпусная лингвистика имеет своим предметом теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей.

Репрезентативность

Задача создателей корпуса - собрать как можно большее количество текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается. Но главное не только и не столько в количестве языкового материала, сколько в его пропорциональности. Можно сказать, что корпус - это уменьшенная модель языка или подъязыка. Важнейшее понятие корпусной лингвистики - репрезентативность. Под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п. Имеются разные подходы к определению репрезентативности, можно сказать, что применительно к общеязыковому (национальному) корпусу это понятие невозможно рассчитать и описать строго математически, однако к этому можно и нужно стремиться, как на этапе проектирования корпуса, так и на этапе его эксплуатации.

Размер корпуса

Термин «корпус» обычно обозначает собрание текстов конечного фиксированного размера. С течением времени объем и состав корпуса может меняться, однако эти изменения должны или не менять его репрезентативность, или менять обоснованно. Объем первых корпусов составлял 1 млн словоупотреблений (Брауновский корпус, Уппсальский корпус русского языка). В настоящее время считается, что объем общеязыкового корпуса должен быть не меньше 100 млн словоупотреблений.

Разметка

Для решения различных лингвистических задач мало лишь наличия массива текстов. Требуется также, чтобы тексты содержали в себе явным образом разного рода дополнительную лингвистическую и экстралингвистическую информацию. Так в корпусной лингвистике возникла идея размечен-ного корпуса. Разметка (tagging, annotation) заключается в приписывании текстам и их компонентам специальных меток (tag, tags): внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; сведения об авторе могут включать не только его имя, но также возраст, пол, годы жизни и многое другое. Это кодирование информации имеет название метаразметка ), структурных (глава, абзац, предложение, словоформа) и собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста. Набор этих метаданных во многом определяет возможности, предоставляемые корпусами исследователям. При выборе этих данных необходимо руководствоваться целями исследования и потребностями лингвистов, а также возможностями по внесению в текст тех или иных дополнительных признаков. Среди лингвистических типов разметки выделяются:

  • морфологическая разметка. В иностранной терминологии употребляется термин part-of-speech tagging (POS-tagging), дословно - частеречная разметка. В действительности морфологические метки включают не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Это основной тип разметки: во-первых, большинство крупных корпусов являются как раз морфологически размеченными корпусами, во-вторых, морфологический анализ рассматривается как основа для дальнейших форм анализа - синтаксического и семантического, и, в-третьих, успехи в компьютерной морфологии позволяют автоматически размечать корпусы больших размеров;
  • синтаксическая разметка, являющаяся результатом синтаксического анализа, или парсинга (англ. parsing), выполняемого на основе данных морфологического анализа. Этот вид разметки описывает синтаксические связи между лексическими единицами и различные синтаксические конструкции (например, придаточное предложение, глагольное словосочетание и т.п.);
  • семантическая разметка. Хотя для семантики нет единой семантической теории, чаще всего семантические тэги обозначают семантические категории, к которым относится данное слово или словосочетание, и более узкие подкатегории, специфицирующие его значение;
  • анафорическая разметка. Фиксирует референтные связи, например, местоименные;
  • просодическая разметка. В просодических корпусах применяются метки, описывающие ударение и интонацию. В корпусах устной разговорной речи просодическая разметка часто сопровождается так называемой дискурсной разметкой, которая служит для обозначения пауз, повторов, оговорок, и т.д.

Существуют и другие типы разметки.

Технология создания корпусов

Технологический процесс создания корпуса можно представить в виде следующих шагов или этапов.

1. Определение перечня источников.

2. Оцифровка текстов (преобразование в компьютерную форму). Следует сказать, что насколько раньше задача ввода текстов в компьютер была тяжела и трудоемка, настолько сегодня эта проблема решается довольно легко, по крайней мере, что касается современных текстов и в современной орфографии. Эта легкость базируется на успехах в оптическом вводе (сканирование) и распознавании текстовой информации и на глобальной компьютеризации современной жизни, в том числе и в областях, связанных с обработкой текстовой информации. Тексты в электронном виде для создания корпусов могут быть получены самыми разными способами — ручной ввод, сканирование, авторские копии, дары и обмен, Интернет, оригинал-макеты, предоставляемые составителям корпусов издательствами и проч.

3. Предобработка текста. На этом этапе все тексты, полученные из разных источников, проходят филологическую выверку и корректировку. Также осуществляется подготовка библиографического и экстралингвистического описания текста.

4. Конвертирование и графематический анализ. Некоторые тексты проходят также через один или несколько этапов предварительной машинной обработки, в ходе которых осуществляются различного рода перекодировка (если требуется), удаление или преобразование нетексто-вых элементов (рисунки, таблицы), удаление из текста переносов, «жёстких концов строк», обеспечение единообразного написания тире и проч. Как правило, эти операции выполняются в автоматическом режиме. Обычно на этом же этапе осуществляется сегментирование текста на его структурные составляющие.

5. Разметка текста. Разметка текста заключается в приписывании текстам и их компонентам дополнительной информации (метаданных). Метаописание текстов корпуса включает как содержательные элементы данных (библиографические данные, признаки, характеризующие жанровые и стилевые особенности текста, сведения об авторе), так и формальные (имя файла, параметры кодирования, версия языка разметки, исполнители этапов работ). Эти данные обычно вводятся вручную. Структурная разметка документа (выделение абзацев, предложений, слов) и собственно лингвистическая разметка обычно осуществляются автоматически.

6. На следующем этапе осуществляется корректировка результатов автоматической разметки: исправление ошибок и снятие неоднозначности (вручную или полуавтоматически).

7. Заключительный этап - конвертирование размеченных текстов в структуру специализированной лингвистической информационно-поисковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку.

8. И, наконец, обеспечение доступа к корпусу. Корпус может быть доступен в пределах дисплейного класса, может распространяться на CD-ROM и может быть доступен в режиме глобальной сети. Различным категориям пользователей могут предоставляться разные права и разные возможности.

Конечно, в каждом конкретном случае состав и количество проце-дур могут отличаться от выше перечисленных, и реальная технология может оказаться гораздо сложнее.

Автоматическая разметка

Фактически, корпус в его современном понимании - это всегда компьютерная база данных, и в процессе его создания естественно использование специальных программ. Среди этих программ особое место занимают программы автоматической разметки. Разметка корпусов представляет собой трудоемкую операцию, особенно учиты-вая размеры современных корпусов. Если для некоторых видов разметки, в частности анафорической, просодической, создание автоматических систем пока представляется довольно сложным и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers). В результате работы программ автоматического морфологиче-ского анализа каждой лексической единице приписываются граммати-че-ские характеристики, включая часть речи, лемму (нормальную форму) и набор граммем (например, род, число, падеж, одушевлен-ность/неодушевленность, переходность и т.п.). В результате работы программ автоматического синтаксического анализа фиксируются син-таксические связи между словами и словосочетаниями, а синтаксиче-ским единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т.п.).

Исправление ошибок и снятие неоднозначности

Однако автоматический анализ естественного языка небезошибо-чен и многозначен - он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии. Снятие неодно-значности (морфологической, синтаксической) в целом является одной из важнейших и сложнейших задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности используются автома-тические и ручные способы. Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека. Автома-тическое разрешение морфологической или синтаксической омонимии, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов.

Форматы данных и стандартизация

Корпусы, как правило, предназначены для многократного использования многими пользователями, соответственно, и их разметка, и их программное обеспечение должны быть определенным образом унифицированы. Что касается разметки, то как лингвистическая, так и экстралингвистическая разметка должны базироваться на некоторых достаточно широко распространенных и принятых принципах описания текстов и языковых единиц. Параметры разметки и их значения должны быть достаточно «естественными», т.е. должны соответствовать общепринятым научным классификациям. Что касается программного обеспечения, то оно должно поддерживать обработку типовых запросов и решение типовых задач. Большое значение имеет унификация форматов, как их наполнения, так и структуры. Единые форматы представления данных позволяют во многих случаях использовать единое программное обеспечение и обмениваться корпусными данными. Стандартизация в отношении корпусов, совместимость типов данных важны и с точки зрения сравнимости разных корпусов. Вопросы оценки корпусов, их пригодности к различным заданиям также требуют своих «стандартов оценки».

В настоящее время на основе международного опыта выработались де-факто стандарты представления метаданных, базирующиеся на описаниях текстов в рамках проекта Text Encoding Initiative (TEI) и на рекомендациях EAGLES (Expert Advisory Group on Language Engineering Standards). В качестве формального языка разметки широко применяются языки SGML и XML. В настоящее время стандарты EAGLES непосредственно включаются в технологическую среду языка XML, см., в частности, разработку стандарта Corpus Encoding Standard for XML (XCES).

Корпусные менеджеры

Работа пользователей с корпусом осуществляется с помощью специализированных программных средств - корпусных менеджеров , предоставляющих разнообразные возможности по получению из корпуса необходимой информации:

  • - поиск конкретных словоформ;
  • - поиск словоформ по леммам;
  • - поиск группы словоформ в виде разрывной или неразрывной синтагмы;
  • - поиск словоформ по набору морфологических признаков;
  • - отображение информации о происхождении, типе текста и т.п.;
  • - вывод результатов поиска с указанием контекста заданной длины;
  • - получение различных лексико-грамматических статистических данных;
  • - сохранение отобранных строк конкорданса в отдельном файле на компьютере пользователя и др.

Результаты поиска обычно выдаются в виде конкорданса (поэтому корпусные менеджеры еще называют конкордансерами ), где искомая единица представлена в ее контекстном окружении и в виде статистических данных. Последние могут фиксировать частотные характеристики отдельных языковых единиц, или граммем, или могут характеризовать совместную встречаемость нескольких лексических единиц. Многие системы позволяют настраивать формат выдачи (менять длину левого и правого контекста, задавать объем выдачи и порядок сортировки данных, отображать или не отображать лингвистические и экстралингвистические характеристики, и т.д.).

Пользователи и способы использования корпусов

Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры употребления тех или иных языковых элементов и конструкций. Это, в первую очередь, лингвисты. Первоначальные лингвистические исследования, проводившиеся с помощью корпусов, сводились к подсчету частот встречаемости различных языковых элементов. Статистические методики используются в решении сложных лингвистических задач, таких как машинный перевод, распознавание и синтез речи, средства проверки орфографии и грамматики и т.д. Так, устойчивые словосочетания представляют собой с семантической точки зрения неделимую смысловую единицу, что очень важно учитывать в лексикографии, системах автоматической обработки текста. На материале корпуса статистическими методами можно определить, какие слова встречаются вместе регулярно и, таким образом, могут быть отнесены к устойчивым словосочетаниям. Корпусы являются богатым источником данных для исследований по лексикографии и грамматике. С исследованиями по лексикографии тесно связаны исследования в области семантики. Наблюдая окружения той или иной лингвистической единицы в корпусе, можно установить определенные семантические признаки, характеризующие данную единицу.

Лингвисты-теоретики используют корпусы в качестве экспериментальной базы для проверки гипотез и доказательства своих теорий. Прикладные лингвисты (преподаватели, переводчики и т.п.) используют компьютерные корпусы при обучении языкам и для решения своих профессиональных задач. Особый класс пользователей представляют компьютерные лингвисты: они пытаются выявить и использовать статистические и лингвистические закономерности, присутствующие в текстах, для создания компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы) также в ряде случаев могут получить ответы на интересующие их вопросы, обратившись к корпусу. Специалисты по общественным наукам (историки, социологи) также могут изучать свои объекты через язык, используя такие параметры текстов, как период, автор или жанр. Литературоведы используют корпусы для стилеметрических исследований. Наконец, корпусы используются для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск).

Типы корпусов

Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (последние в англоязычной литературе называют treebanks, что можно перевести как «банки синтаксических структур»). При этом следует подчеркнуть, что корпус с синтаксической разметкой явно или неявно включает в себя и морфологические характеристики лексических единиц.

Вообще же существует большое число разных типов корпусов. Их разнообразие определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов (см. таблицу).

Классификация корпусов

Типы корпусов

Тип данных

Письменные

Смешанные

Язык текстов

Английский и т.д.

«Параллельность»

Одноязычные

Двуязычные

Многоязычные

«Литературность»,

специфичность

Литературные

Диалектные

Разговорные

Терминологические

Смешанные

Жанр

Литературные

Фольклорные

Драматургические

Публицистические

Доступность

Свободно доступные

Коммерческие

Закрытые

Назначение

Исследовательские

Иллюстративные

Динамичность

Динамические (мониторные)

Статические

Разметка

Размеченные

Неразмеченные

Характер разметки

Морфологические

Синтаксические

Семантические

Просодические и т.д.

Объем текстов

Полнотекстовые

«Фрагментнотекстовые»

Хронологический аспект

Синхронические

Диахронические

«Общность»

Одного писателя

Структура

Центральные и архивные

Ядерные и периферийные

1.12. Терминология

Терминология корпусной лингвистики еще не установилась. Во-первых, это естественно, учитывая ее недавнее происхождение. Во-вторых, корпусная лингвистика как отдельная ветвь лингвистики сложилась в США и в Великобритании. И соответственно, ее терминология складывалась и продолжает складываться в недрах английского языка. И, естественно, русская корпусная терминология строится на базе англоязычной.Одновременно заметим, что методология корпусной лингвистики может быть применена и к ней самой. То есть необходимо составить корпус текстов по корпусной лингвистике и разрабатывать словарь непосредственно на живом текстовом материале. Некоторое число публикаций на русском языке, посвященных вопросам создания и использования корпусов, уже имеется.

Что касается русского языка, то среди специалистов до сих пор нет единодушия в отношении главного термина: корпус . Каким должно быть множественное число от слова «корпус»? Как образуется соответствующее прилагательное? Словари допускают для разных значений этого существительного две формы множественного числа: кóрпусы и корпусá. Для значения «массив», которое имеет место в случае языковых корпусов, именительный падеж множественного числа должен быть «кóрпусы» и, соответственно, прилагательное «кóрпусный» (Большой толковый словарь русского языка, СПб., 1998). Однако анализ узуса специалистов пока свидетельствует в пользу форм «корпусá», «корпуснóй», «корпуснáя», которые используются заметно чаще, так что можно, видимо, с осторожностью сказать, что в настоящее время этот вопрос остается открытым.

Корпусы в сети Интернет

Приведем сетевые адреса и краткие сведения о некоторых корпусах. В Интернете можно получить доступ и найти списки самых различных корпусов — см., например, D. Lee. Bookmarks for Corpus-based Linguists (http://devoted.to/corpora), веб-страницы М. Барбера (Manuel Barbera) (http://www.bmanuel.org/index.html) или М. Барлоу (Michael Barlow) (http://www.athel.com/corpus.html), сайт Language and Speech Resources (http://www.elsnet.org/resources.html) и др.

Национальный корпус русского языка
http://ruscorpora.ru

70 млн слов

Компьютерный корпус текстов русских газет конца ХХ-го века
http://www.philol.msu.ru/~lex/corpus

200 тыс. слов
Система поиска по корпусу временно недоступна

Корпус русского языка ХАНКО (Хельсинский университет)
http://www.ling.helsinki.fi/projects/hanco/

100 тыс. слов
Ручная морфологическая разметка

Корпуса русских текстов на сайте Университета в Лидсе, Великобритания
http://corpus.leeds.ac.uk

Русские корпуса Тюбингенского Университета
http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html

Словарь-корпус языка А.С. Грибоедова http://www.inforeg.ru/electron/concord/concord.htm

120 тыс. слов

Уппсальский корпус русских текстов
Доступен для поиска на сайте http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html

1 млн слов
600 текстов (публицистика 1985-1989; литературные произведения 1960-1988).

Банк английского языка (Bank of English) http://www.collins.co.uk/books.aspx?group=153

Свободный доступ: http://www.collins.co.uk/Corpus/CorpusSearch.aspx

524 млн слов, 56 млн в свободном доступе (The Collins Wordbanks Online English corpus: 36 млн - брит. англ., 10 млн - амер. англ., 10 млн - брит. разговорн. англ.)

Британский национальный корпус
http://www.natcorp.ox.ac.uk/ или http://sara.natcorp.ox.ac.uk /

100 млн слов
Корпусные менеджеры SARA и XAIRA (http://www.xaira.org)

Венгерский национальный корпус
http://corpus.nytud.hu/mnsz /

100 млн слов

Корпус испанского языка (исторический)
http://www.corpusdelespanol.org /

100 млн слов, тексты 13-20 вв.
Создан в Иллинойском университете, США

Корпус латинских текстов «Персей»
http://www.perseus.tufts.edu

Корпус современного датского языка
http://www.korpus2000.dk/

50 млн слов
Тексты 1998-2002 гг.

Корпус современного итальянского языка CORIS/CODIS
http://www.cilta.unibo.it/ricerca.htm

100 млн Слов

Корпус современного китайского языка (LIVAC Synchronous Corpus)
http://www.rcl.cityu.edu.hk/livac/

720 млн слов
(150 млн иероглифов)

Мангеймский корпус немецкого языка (Institut für Deutsche Sprache, Mannheim, Germany)
http://corpora.ids-mannheim.de/~cosmas/

1610 млн слов
Корпусный менеджер COSMAS

Национальный корпус словенского языка
http://www.fida.net/eng/

Более 100 млн слов

Польский национальный корпус
http://korpus.ia.uni.lodz.pl/

93 млн слов

Словацкий национальный корпус
http://korpus.juls.savba.sk

180 млн слов
Используется корпусный менеджер Manatee/Bonito.

Хорватский национальный корпус
http://www.hnk.ffzg.hr/

53 млн слов
Корпусный менеджер
Manatee/Bonito.

Чешский национальный корпус
http://ucnk.ff.cuni.cz

100 млн слов + 100 млн нового корпуса современной лексики
Корпусный менеджер
Manatee/Bonito.

Эстонский корпус
http://test.cl.ut.ee/korpused/baaskorpus/1980/index.html.en

Ко́рпусная лингви́стика - раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.

Целесообразность создания текстовых корпусов объясняется:

представлением лингвистических данных в реальном контексте;

достаточно большой представительностью данных (при большом объёме корпуса);

возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач, таких, как например, реализация графематического и лексико-грамматического анализа текста и др.

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годы в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объёмом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объёмами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) в Бирмингемском Университете и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный фонд русского языка, создававшийся по инициативе А. П. Ершова.

Современное состояние

Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.

Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 300 млн словоупотреблений.

Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто Wall Street Journal и New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Мошкова или Проект Гутенберг).

Проблемы

Проблема представительности

Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объёма текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.

Проблема разметки

К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:

токенизация (разбиение на орфографические слова)

лемматизация (приведение словоформ к словарной форме)

морфологический анализ

Проблема представления результатов[править | править вики-текст]

В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.

Веб как корпус[править | править вики-текст]

Использование поисковых машин[править | править вики-текст]

В качестве корпуса может использоваться множество текстов, доступных в интернете (то есть миллиарды словоупотреблений для основных мировых языков). Для лингвистов самым распространенным способом работы с Интернетом остаётся составление запросов к поисковой машине и интерпретация результатов либо по числу найденных страниц, либо по первым возвращенным ссылкам. В английском языке такая методология получила название англ. Googleology, для русского более подходящим названием может стать Яндексология. Необходимо отметить, что такой подход годится для решения ограниченного класса задач, так как средства разметки текстов, используемые в вебе, не описывают ряд лингвистических особенностей текста (указание ударений, грамматических классов, границ словосочетаний и т. д.). Кроме того дело осложняется малой распространённостью семантической вёрстки.

На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается. См. также статистика запросов.

Использование веб-страниц[править | править вики-текст]

Второй способ заключается в автоматическом извлечении большого количества страниц из Интернета и их дальнейшем использовании в качестве обычного корпуса, что дает возможность провести его разметку и использовать лингвистические параметры в запросах. Этот способ позволяет быстро создать представительный корпус для любого языка в достаточной степени представленного в Интернете, но его жанровое и тематическое разнообразие будет отражать интересы пользователей Интернета.

Всё большую популярность в научной среде получает использование Википедии - как корпуса текстов.

Проект Татоэба[править | править вики-текст]

В 2006 году появился сайт Татоэба (Tatoeba), позволяющий на свободной основе добавлять новые и изменять существующие предложения на различных языках, связанные между собой по смыслу. В его основу лёг лишь англо-японский корпус, а уже сейчас число языков превышает 80, а число предложений - 600000. Любой желающий может добавлять новые предложения и их переводы, а при необходимости - бесплатно скачать целиком или частично все языковые корпуса.

Открытый корпус русского языка[править | править вики-текст]

Интерфейс системы разметки Открытого корпуса русского языка

Интерес представляет проект открытого корпуса русского языка, который не только использует опубликованные под свободными лицензиями тексты, но и позволяет любому желающему принять участие в лингвистической разметке корпуса. Такая форма краудсорсинга стала возможной благодаря разбиению задачи разметки на небольшие задания, с большинством из которых может справиться человек без специальной лингвистической подготовки. Корпус постоянно пополняется, все тексты и программное обеспечение, связанные с ним доступны под лицензиями GNU GPL v2 и CC-BY-SA.

Корпусная лингвистика – это раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использованием лингвистических корпусов (корпусов текстов).

Одним из основных источников языкового материала, необходимого для проведения лингвистических и филологических исследований является текст, письменный или устный. На основе анализа множества текстов можно сделать вывод об интересующем исследователя языковом явлении, например, о поведении грамматической конструкции, использования выразительных средств в языке и т.п. Развитие вычислительной техники способствовало тому, что большое количество текстов стало доступно в электронном виде. Для того, чтобы можно было работать с такими объемами текстов, извлекая из них нужную информацию, во всем мире стали создаваться лингвистические корпусы, т.е. коллекции текстов, специально отобранных, размеченных по различным лингвистическим параметрам и обеспеченных системой поиска. Увеличение объема материала исследования потребовало применения новых методов анализа лингвистических данных, включая их статистическую обработку.

Таким образом, корпусная лингвистика включает два аспекта: во-первых, создание и разметка (аннотирование) корпусов текстов и разработка средств поиска по ним и, во-вторых, собственно лингвистический - экспериментальные исследования на базе корпусов.

Это относительно молодое и активно развивающееся направление, тесно связанное с компьютерной лингвистикой и широко применяющее квантитативные методы.

История и современность

Источники

Цели, задачи и основные направления корпусной лингвистики

Возможность пользоваться обширными электронными ресурсами значительно облегчила процесс сбора материала в лингвистических исследованиях. Однако такая доступность языковых данных радикально изменила требования к доказательной базе лингвистических исследований: в наше время мало привести несколько экзотических примеров в подтверждение выдвигаемой концепции, необходимо представить достаточно полную выборку данных того или иного языка. Однако работать с мегабайтами «сырых» текстов не менее трудно, чем искать примеры вручную.

Необходимость и возможность обработки большого массива текстов для извлечения из них лингвистических, литературоведческих и др. данных обусловили бурный рост электронных ресурсов, включая лингвистически аннотированные корпуса текстов.

Корпусная лингвистика призвана ответить на следующие вопросы:

какие принципы лежат в основе устройства корпусов, как должна быть устроена стандартизованная разметка корпуса относительно различных языковых параметров (жанровая и стилевая разметка текстов, морфологическая разметка и т.п.)

какие лингвистические и литературоведческие задачи можно решать с помощью корпусов,

как пользоваться корпусами, включая специальные языки запросов к корпусам.

Использование корпусов текстов дает возможность наблюдать поведение интересующих исследователя языковых единиц (слов, словосочетаний, грамматических категорий, синтаксических конструкций и т.д.) в естественной языковой среде, т.е. в реально существующих, а не искусственно сконструированных контекстах.

Кроме того, корпусные исследования позволяют, используя статистические методы, сформулировать, подтвердить или опровергнуть некоторую гипотезу о том или ином языковом явлении на большом объеме материала.

При этом если исследователь пользуется уже существующим корпусом, он полностью минует долгий и трудоемкий этап сбора материала (опрос информантов, работа со словарными картотеками или письменными текстами и т.д.).

Для некоторых целей оказывается достаточным использование в качестве корпуса уже существующих электронных коллекций текстов, таких как виртуальные библиотеки, архивы электронных версий периодических изданий или новостных лент. Гигантским собранием текстов является весь Интернет. Существует даже такое направление исследований – Интернет как корпус. Однако поскольку тексты в сети не систематизированы и не имеют лингвистической аннотации (разметка корпуса) – что относится и к прочим виртуальным коллекциям текстов,- дать точную статистическую оценку всего множества или некоторого подмножества текстов затруднительно, поэтому и возникает потребность в структурированных и аннотированных лингвистических корпусах.

Практически все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов (ср., например, словари издательства Collins, создаваемые на базе электронного языкового корпуса Bank of English, насчитывающего более 2,5 миллиарда слов).

Создание и лингвистическое аннотирование (лингвистическая разметка) корпусов играет основополагающую роль в развитии современных технологий автоматической обработки текстов на естественном языке. Такие корпуса служат большой экспериментальной базой для разработки различных модулей автоматического лингвистического анализа. С одной стороны, наличие экспертной лингвистической разметки в корпусе позволяет оценить качество работы того или иного лингвистического модуля. Например, используя корпус с морфологической разметкой, где каждому слову из текста приписана его исходная форма и грамматические характеристики, можно проверить, насколько точно работает система автоматического морфологического анализа. С другой стороны, в современных системах автоматического анализа текстов (морфологических и синтаксических анализаторах и др.) используются различные методы машинного обучения. Для того чтобы это стало возможным, необходим большой обучающий корпус, содержащий "эталонную" разметку.

Одним из приоритетных направлений корпусной лингвистики является создание и расширение универсальных национальных корпусов (корпусов того или иного естественного языка), представительных по отношению ко всему языку, которые могут служить для исследования самых разнообразных явлений этого языка. Большинство языков мира уже имеют свои национальные корпуса. Общепризнанным образцом является, в частности, Британский национальный корпус (BNC). Среди корпусов славянских языков выделяется Чешский национальный корпус , созданный в Карловом университете Праги. Национальные корпуса существуют также для немецкого, китайского, финского и др. языков. Для русского языка таким представительным корпусом является Национальный корпус русского языка (НКРЯ).

По мере создания все большего количества корпусов и развития различных технологий обработки текстовой информации вырабатывались некоторые универсальные принципы и языки разметки лингвистической информации в корпусе, создавались специальные инструменты для работы с корпусом на любом языке так называемые корпусные менеджеры. Выработка универсальных стандартов и технологий сделало возможным создавать большие представительные корпуса за очень короткий срок.

Таким образом, предметом корпусной лингвистики являются "теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей".

История и современность

Можно сказать, что первые корпуса и корпусные методы появились задолго до возникновения корпусной лингвистики как научного направления. По сути, любое лингвистическое исследование, основанное на сопоставлении и анализе контекстов, является корпусным.

Еще в конце XIX - начале XX в. в целях усовершенствования средств связи, а также в целях быстрого обучения языку создавались частотные словари. Частотность слов оценивалась по специальным выборкам текстов.

Первые корпуса в строгом смысле этого слова появились в 60-х гг. ХХ в. Прообразом для них послужили словарные картотеки – собрания фрагментов текстов, обычно в виде карточек, содержащих то или иное слово, и систематизированные относительно описываемого слова (в основном, по алфавиту).

В 1963 г. в Брауновском университете (США) для создания частотного словаря американского варианта английского языка был создан большой корпус на цифровом носителе (Brown Corpus), включающий 1 млн. слов. При оценке частоты некоторого слова в языке возникает проблема "сбалансированности" выборки. В языке частотность многих слов обусловлена тематикой текстов. Так, например, слово переменная будет чрезвычайно частотно в математических текстах. Вероятность же встретить данное слово в художественной литературе очень мала. Для обеспечения корректности данных относительно частоты употребления слов создатели корпуса (У. Френсис и Г. Кучера) разработали строгую процедуру отбора текстов: в корпус вошли 500 фрагментов прозаических текстов, относящихся к 15 наиболее массовым жанрам и напечатанных в 1961г.

Возникновение корпусных методов связано с бурным развитием компьютерных технологий во второй половине ХХ в. Возможность сканирования и распознавания текста (перевод в текстовый формат), появление баз данных и систем управления базами данных сделали возможным сбор, хранение и обработку огромных массивов текстовых данных. Не последнюю роль в развитии корпусной лингвистики сыграла популяризация мировой сети Интернет, т.к. корпуса стали доступны широкому кругу пользователей, значительно расширились возможности их наполнения.

С тех пор накоплен значительный опыт разработки и применения корпусов. Ежегодно публикуется множество работ по данной тематике. Обсуждению проблем корпусной лингвистики посвящена специализированная электронная рассылка Corpora List и периодические издания International Journal of Corpus Linguistics, Corpora, Corpus Linguistics and Linguistic Theory, ICAME Journal.

В России разработкой и исследованием корпусов занимаются специалисты Центра лингвистической документации при Независимом московском университете, отдела экспериментальной лексикографии Института русского языка им. В. В. Виноградова РАН, Института языкознания РАН, Института проблем передачи информации РАН, Всероссийского института научной и технической информации РАН, Института лингвистических исследований РАН в Санкт-Петербурге и др.

Теоретические и практические проблемы корпусной лингвистики обсуждаются на специализированных семинарах и в рамках научных конференций по прикладной и компьютерной лингвистике: ежегодная международная конференция по компьютерной лингвистике «Диалог», конференция Мегалинг, конференция «Корпусная лингвистика» при кафедре математической лингвистики СПбГУ. Компьютерной лингвистике посвящен раздел форума на сайте конференции «Диалог».

Важной вехой в развитии отечественной корпусной лингвистики явилось создание Национального корпуса русского языка. Работы по созданию Корпуса были начаты в 2001 году группой лингвистов из Москвы, Петербурга, Воронежа и других городов. В рамках развития проекта ведется работа по созданию новых ресурсов на базе корпуса.

Основные понятия корпусной лингвистики

Центральное понятие корпусной лингвистики – лингвистический корпус. Тексты в корпус выбираются не случайным образом, а в соответствии с проблемной областью, т.е. областью реализаций интересующих исследователя языковых явлений. Проблемная область имеет два аспекта: языковой и речевой. Языковой аспект – это само изучаемое явление, а речевой – это множество контекстов, в которых это явление представлено. Проблемная область может быть как очень широкой (все произведения Достоевского Ф.М.), так и достаточно узкой (случаи согласования сказуемого с количественной группой по числу).

Одним из принципиальных вопросов является вопрос о том, какие тексты и в каком объеме необходимо отобрать в корпус. С одной стороны, хотелось бы, чтобы исследуемое явление, как бы оно ни было редко в языке, нашло отражение в корпусе. Одним из требований, предъявляемым к составу и структуре корпуса является требование полноты.

Данное требование входит в противоречие с другим важным принципом создания корпуса - требованием репрезентативности. Задача создателей корпуса – собрать как можно большее количество текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается. Каким бы специфичным ни был феномен, ни один корпус не может содержать все его реализации. Поэтому корпус – это всегда определенная выборка из проблемной области, которая осуществляется на основе некоторых критериев, устанавливаемых исследователем в зависимости от задачи. Такая выборка должна отражать те или иные параметры исследуемого языкового явления в той же пропорции, что и в языке вообще или в некотором исследуемом подмножестве языка.

С точки зрения отбора текстов в корпус различают сбалансированные корпусы (см. также репрезентативность) и мониторные корпуса. В сбалансированных корпусах в корпус включаются тексты, представляющие разные модусы дискурса (включая как письменные, так и устные тексты), разнообразные по жанрам, стилям и тематике. При разработке корпуса устанавливаются пропорции, в которых должны быть представлены тексты разных жанров, стилей и т.п. Такие корпусы имеют фиксированный объем. Пополнение таких корпусов происходит только после тщательной процедуры отбора новых текстов. Мониторные корпусы постоянно пополняются новыми текстами на данном языке, при этом баланс текстов разных модусов, стилей и жанров не соблюдается. Создатели мониторных корпусов считают, что "статистическая" обоснованность данных, полученных из корпуса, будет достигнута за счёт объема корпуса, исчисляемого в миллиардах слов.

Важным параметром корпуса является его объем. Если первые корпусы достигали миллиона слов (точнее, словоупотреблений или текстоформ), то объем современных корпусов исчисляется сотнями миллионов (например, объем Национальный Корпус Русского языка на данный момент составляет около 140 млн. слов) или миллиардами (например, объем корпуса английского языка Bank of English превышает 2,5 миллиарда слов).

Как уже отмечалось, для решения различных лингвистических задач необходимо, чтобы тексты и отдельные языковые единицы внутри текстов содержали дополнительную лингвистическую и металингвистическую информацию - разметку (аннотацию). В современных корпусах помимо метаразметки (отражающей различную экстралингвистическую информацию о тексте, включая его название, автора, жанровую принадлежность и т.п., подробнее см. разметка корпуса), содержится разметка, соответствующая различным уровням лингвистического описания, - морфологическая, синтаксическая, фонетическая и др.

Компьютерная поддержка корпусов

Взаимодействия пользователя с корпусом: поиск в корпусе в соответствии с запросом пользователя обеспечивается с помощью специальных программ - корпусных менеджеров. Они обеспечивают сортировку результатов поиска, статистические подсчеты, составление конкордансов и словников (списков слов, систематизированных некоторым образом) на основе корпуса.

Большинство современных корпусных менеджеров позволяют осуществлять поиск различного рода информации: поиск конкретных словоформ; поиск словоформ по лемме (поиск всех форм одной и той же лексемы, встретившихся в тексте); поиск неразрывных и разрывных словосочетаний. При наличии соответствующей разметки осуществляется поиск по набору морфологических признаков (например, поиск всех словосочетаний вида "предлог по + существительное в предложном падеже") и др. информацию, соответствующую уровням лингвистической разметки, представленных в корпусе. Благодаря наличию метаразметки пользователь имеет возможность создавать свой подкорпус текстов, отобранных по жанру, тематике, времени написания и т.п. Результат выдачи представляет собой конкорданс (множество контекстов, в котором встретилось запрашиваемое языковое выражение). Каждый из примеров снабжается информацией об источнике, откуда взят пример. В ряде корпусов возможно также получить статистическую информацию о запрашиваемом языковом выражении: его относительную частоту по всему корпусу, распределение по жанрам или временным срезам, информацию о частоте его сочетаемости.

Корпусы, как правило, предназначены для многократного использования многими пользователями. Для унификации работы с разными корпусами, для обеспечения "независимости" корпусных данных от конкретной программной реализации интерфейса работы с корпусом разрабатываются стандарты разметки текстовых корпусов. В настоящее время выработались стандарты представления метаданных, базирующиеся на описание текстов в рамках проекта Text Encoding Initiative (TEI) и на рекомендациях EAGLES (Expert Advisory Group on Language Engineering Standards). В качестве языка разметки используются универсальные языки разметки данных, такие как, например, SGML и XML.

Корпусная линвистика как альтернатива традиционной лингвистике

Несмотря на огромную популярность корпусной лингвистики, она находит и своих противников. Авторитетный американский лингвист Н. Хомский высказал следующее мнение: «Corpus linguistics doesn’t mean anything. It’s like saying <…> suppose physics and chemistry decide that instead of relying on experiments, what they’re going to do is take videotapes of things happening in the world and they’ll collect huge videotapes of everything that’s happening and from that maybe they’ll come up with some generalizations or insights. Well, you know, sciences don’t do this» .

Сторонники данного радикального подхода признают правомерными методами изучения языка только лингвистический эксперимент (или, как его частный случай, эксперимент над самим собой, т.е. интроспекцию). Однако, существуют области, где интроспекция и эксперимент в принципе невозможны (например, история языка).

По сути, в корне этого спора извечный вопрос: «Что изучает лингвистика – язык или речь?». Неприятие корпусных методов основывается на убеждении, что лингвист изучает язык как систему, а не его конкретные проявления в речи, а корпус – не что иное, как собрание конкретных употреблений. Соответственно, сторонники изучения речи широко используют корпуса в своих исследованиях. Компромиссная точка зрения состоит в том, что задача лингвистики – изучение языка, но это невозможно без анализа его реализации в речи. Так и корпусные методы позволяют сделать выводы о феноменах языка, основываясь на конкретном речевом материале. Таким образом, корпусная лингвистика не является альтернативой традиционной лингвистике, а напротив, дополняет и обогащает ее.

(Лингвистический) корпус – как правило, множество текстов,отобранных в соответствии с некоторой исследовательской задачей;специально подготовленных, размеченных, структурированных, представленных в унифицированном виде. Корпуса используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке.

1

В данной статье рассматриваются основные подходы к изучению семантики языковых единиц островных немецких говоров с привлечением методов корпусной лингвистики. Языковая система островных немецких говоров характеризуется значительной вариативностью на всех уровнях: фонетическом, морфологическом, лексико-семантическом, синтаксическом. Изучение спектра значений в синхронии и диахронии возможно лишь при привлечении большого корпуса диалектных текстов. Многие европейские корпусы разговорной и диалектной речи используют систему EXMARaLDA. Диалектный корпус представляет собой специфический массив данных, поскольку диалект обладает системными отличиями от литературного языка и является исключительно устной формой коммуникации. Электронные корпусы диалектных текстов являются принципиально новым источником, способствующим приобщению диалектологии к современной научной лингвистической парадигме, в которой изучение основных языковых черт диалекта было бы автоматизировано, обеспечивало бы перекрестные исследования в текстах различных говоров, облегчало бы поиск и выборку необходимых данных и позволяло бы проводить диахронические исследования на примере нескольких десятилетий.

диалектология

островные немецкие говоры

языковая вариативность

корпусная лингвистика

лингвистический корпус

1. Ахманова О.С. Словарь лингвистических терминов. – М. : КомКнига, 2007. – 576 с.

2. Баранов О.Н. Введение в прикладную лингвистику. – М. : Едиториал УРСС, 2003. – 360 с.

3. Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. – Иркутск: ИГЛУ, 2011. – 161 с.

4. Крючкова О.Ю., Гольдин В.Е., Сдобнова А.П. Корпус русской диалектной речи: концепция и параметры оценки. – URL: http://www.dialog-21.ru/digests/dialog2011/materials/ru/pdf/36.pdf.

5. Юрина Е.А. Томский диалектный корпус: в начале пути // Вестник Томского государственного университета. - 2011. – № 2 (14). - С. 58-63.

6. Lemnitzer L., Zinsmeister H. Korpuslinguistik. Eine Einführung. – Tübingen: Narr Verlag, 2010. – 214 s.

7. Perkuhn R., Keibel H., Kupietz M. Korpuslinguistik. – Paderborn: Wilhelm Fink Verlag, 2012. - 144 s.

8. Schmidt Th. Grundzüge von EXMARaLDA – einem System zur komputergestützten Erstellung und Auswertung von Korpora gesprochener Sprache. – URL: http://www1.uni-hamburg.de/exmaralda/files/Backstein.pdf.

Семантические исследования диалектной лексики предполагают работу в нескольких направлениях: синхронное описание лексического состава диалекта, изучение семантических новаций и вариантов с учетом внутренних законов развития и языковых контактов в диахроническом аспекте, а также сопоставительный анализ с материнским диалектом или группой родственных диалектов для определения путей семантического развития. Особое место в группе диалектов занимают островные говоры, под которыми традиционно понимаются разновидности языка, длительное время существующие в окружении другого языка, территориальная и культурно-языковая изоляция которых привела к появлению дивергентных языковых признаков или сохранению архаических черт.

Изучение проходящих в диалекте процессов важно не только для понимания развития диалекта как одной из подсистем языка, но и для понимания динамики языковых процессов в национальном языке в целом. Немецкие говоры на территории Алтайского края характеризуются значительным разнообразием их лексико-семантической системы, которая является составной частью единой языковой системы немецкого языка, но содержит множество лексических единиц, отличающихся от стандарта и локально ограниченных в своем употреблении. Исследование всех случаев и контекстов употребления того или иного слова в различных островных говорах позволяет сделать вывод о стабильности или изменчивости конкретной языковой единицы. Изучение спектра значений в синхронии и диахронии возможно лишь при привлечении большого количества языкового материала, подтверждающего узуальность и конвенциональность определенного значения. Исследование семантики лексических единиц в диахроническом аспекте подразумевает прослеживание способов/контекстов использования той или иной единицы в различных коммуникативных ситуациях и контекстах. Таким образом, для получения объективных результатов необходим достаточный корпус языкового материала, собранного из множества различных источников в различное время.

Понятие корпуса является в лингвистике неоднозначным и даже многогранным. Так, «Словарь лингвистических терминов» дает следующие трактовки.

Корпус (массив, текст)

  1. Примерная совокупность высказываний, отобранных для анализа и представленных в виде письменного текста, аудиозаписи и т.п.
  2. Вся сумма (совокупность) произведений речи, созданных коллективом носителей данного языка .

Такое классическое понимание лингвистического корпуса принципиально важно для диалектологических исследований, первым этапом которых всегда является запись речи носителей диалекта (как правило, аудио-и/или видеозапись с последующей письменной фиксацией в виде транскрипции или в орфографии).

Научно-исследовательской группой Лингвистического института Алтайской государственной педагогической академии под руководством проф. Л.И. Москалюк в течение нескольких десятилетий накоплен огромный языковой диалектный материал. Значительная часть аудиозаписей уже расшифрована и затранскрибирована, данный языковой материал уже частично лингвистически обработан и исследован.

Однако такой текстовый (в широком смысле) корпус представляет собой базу, но не инструмент исследования. Традиционно исследователь вручную проводил выборку отдельных явлений (лексических, грамматических, синтаксических и др.), исходя из целей и гипотез проводимого им исследования, и лишь потом проводил анализ полученного языкового материала. Такая технология исследования всегда является достаточно трудоемкой, требует много времени. Следует отметить и определенную долю субъективизма исследователя при отборе материала, при которой статистически возможны погрешности.

Но развитие науки и техники открывает новые возможности для исследователей, современные информационные технологии способствуют более быстрой и объективной обработке языковых данных. В лингвистических исследованиях все более широкое применение находят электронные ресурсы различных типов: электронные словари, базы данных, текстовые корпусы. Как отмечают создатели Саратовского диалектного корпуса русского языка, наличие электронных автоматически обрабатываемых лингвистических баз данных не только значительно ускоряет и оптимизирует трудоемкий процесс сбора языкового материала, но и ведет к смене научной парадигмы в лингвистике .

Эти задачи успешно решает корпусная лингвистика - раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий. Это позволяет в реальном времени получать результаты, требующие обработки таких массивов текстов, для получения и обработки которых ранее требовались месяцы. Корпус не просто позволяет ускорить исследования языка и многократно повысить их эффективность, достоверность и проверяемость - он позволяет решать такие задачи, которые лингвистика предыдущих эпох практически не ставила в силу их трудоемкости или невыполнимости. К таким задачам относятся, например, многие виды статистических и других квантитативных исследований языка. Корпусная лингвистика при этом не только измерительный и статистический инструмент, но и своеобразная «стратегия, методология исследования» . Примат объективных количественных данных, требование большого массива примеров, а также необходимость относительно широкой «географии» источников предполагает и совершенно иной методологический подход к решению задачи. Корпусная лингвистика исходит из того, что исследователь занимает, с одной стороны, позицию стороннего наблюдателя над языковыми явлениями, с другой стороны, произвольно задает параметры для выборки и анализа данных корпуса, т.е. корпусная лингвистика объединяет в себе теоретические и эмпирические принципы лингвистики.

В настоящее время существует множество определений понятия «лингвистический корпус». В качестве базового можно принять определение В.П. Захарова: «под лингвистическим, или языковым, корпусом текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач» .

Различают различные виды корпусов: иллюстративные, исследовательские, динамические, статистические. Исследовательский корпус предназначен преимущественно для изучения раз-личных аспектов функционирования языковой системы. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач. В качестве основных требований, предъявляемых исследователями к подобного рода корпусу, выделяются репрезентативность, полнота, экономичность, самодостаточность, компьютерная поддержка, структуризация материала .

Главная характеристика корпуса, отличающая его от простых коллекций текстов, заключается в наличии дополнительной информации о свойствах входящих в него текстов (разметки, или аннотации). Каждый текст должен иметь лингвистическую и экстралингвистическую разметку. В информацию о тексте необходимо включить сведения об информантах, о времени, месте записи, о конкретной ситуации общения, сведения о диалекте (говоре). Метатекстовая информация должна быть универсальной, типичной для лингвистических корпусов различного типа, чтобы не ограничивать параметры поиска, а, наоборот, сделать корпус доступным для многих исследователей с их различными целями, подходами и исходными гипотезами.

Самыми большими и полными являются корпусы национальных языков, например Национальный корпус русского языка, Брауновский корпус американского варианта английского языка, Британский национальный корпус и др. Во многих странах ведутся работы по созданию корпусов по разновидностям языка (корпус диалектов, устной или письменной речи, корпус смс-сообщений, детской речи, публицистических текстов и др. ). Обширной информационной системой является корпус разговорного немецкого языка (Datenbank Gesprochenes Deutsch (DGD des DSAv)), разрабатываемый Институтом немецкого языка (г. Мангейм). Диалектный корпус является особым видом лингвистического корпуса, отличным от корпуса разговорной речи национального языка, поскольку диалектная языковая система по многим параметрам отличается от стандартной литературной и даже разговорной нормы (многочисленные фонетические варианты одной лексемы, уникальная, собственно диалектная лексика, не поддающаяся простому переводу на литературный язык, и др.). Создание диалектного электронного корпуса сопряжено с целым рядом сложностей:

  • системные языковые отличия от литературного языка;
  • исключительно устный характер диалектной коммуникации, как следствие - невозможность опереться на письменные источники;
  • вариативность на всех уровнях, затрудняющая идентификацию единиц в корпусе;
  • отсутствие единообразия при фиксации диалектной речи и различные способы организации информации.

Именно эти сложности и определяют еще незначительное количество диалектных и региональных корпусов как в русском, так и в немецком языковом пространстве. Работа над большинством корпусов еще не закончена. Технические и методологические проблемы во многом схожи. Так, разработчики Саратовского диалектного корпуса определяют необходимые параметры для четкой концепции корпуса. К числу таких параметров относятся, по их мнению, следующие:

  1. принципы отбора диалектного материала и критерии репрезентативности диалектного корпуса;
  2. принципы членения речевого континуума в корпусе;
  3. параметры выдачи текстовых фрагментов;
  4. формы представления диалектных текстов в корпусе;
  5. виды и правила аннотирования текстовой базы корпуса;
  6. параметры метаразметки диалектных текстов;
  7. представление в диалектном корпусе нелингвистической информации;
  8. оптимальные для диалектологических исследований возможности пользовательских запросов .

Остановимся кратко на каждом параметре. Для создания репрезентативного корпуса диалектных текстов необходимо большое количество лингвистически валидных и аутентичных записей и их транскрипций. При этом преимущество должно отдаваться записям реальной, не моделируемой исследователем коммуникации. Текст понимается максимально широко как любое речевое действие различной протяженности во времени. Учитывая наличие различных немецких говоров на территории Алтайского края, необходимо представить тексты всех диалектных областей. Все это обеспечивает объективность и надежность представленных лингвистических данных. В семантических исследованиях с помощью корпуса репрезентативность понимается не только количественно, но и качественно. Такой корпус должен покрывать большое количество тематических «проблемных областей». Под «проблемной областью» понимается «область реализаций языковой системы, содержащая феномены, подлежащие лин-гвистическому описанию» . Учитывая преимущественно бытовую (не профессиональную) и семейную сферу употребления диалекта, необходимо включить в состав корпуса тексты различной тематики.

Как правило, диалектные текстовые корпусы значительно меньше по объему корпуса национального языка. Это обусловлено исключительно устной формой общения носителей диалекта, отсутствием письменных текстов на диалекте и ограниченностью тем личной и бытовой сферы общения. Кроме того, сложность лингвистической обработки таких текстов (расшифровка, разметка, аннотирование, семантический и структурный анализ) замедляет работу над пополнением корпуса и требует привлечения достаточного количества исследователей для его создания.

При создании корпуса и работе с ним наряду с репрезентативностью и полнотой данных методологически важен также параметр аутентичности и валидности текстов. Приоритет должен отдаваться записям естественной, спонтанной и неконтролируемой исследователем речи носителей диалекта. Однако даже сам факт присутствия наблюдателя, даже не участвующего в беседе, накладывает отпечаток на ход беседы. Методика сбора диалектного материала, как правило, не дает возможности получать по-настоя-щему естественный диалог, поскольку ситуация общения искусственно конструируется: эксплицитно задается тема коммуникации, участ-ники диалога информированы о целях опроса и т.д. Такого рода тексты создатели корпусов диалектной речи относят к так называемым полуаутентичным, «провоцированным», контролируемым текстам (evozierte Daten: halbkontrollierte Texte (evokative Feldexperimente und aufgabenorientierte Kommunikation) . Поэтому необходимы метаданные о характере протекания разговора и условиях записи. Это еще одно преимущество обработки диалектных текстов с помощью автоматического текстового корпуса, что позволяет дифференцировать полученные в процессе выборки и анализа результаты.

Наиболее надежной формой хранения диалектных текстов и оптимальной формой для проведения лингвистического анализа на примере большого массива данных является программно обеспеченный электронный текстовый корпус. Электронная форма представления диалектных текстов повышает сохранность этого уникального материала, создает возможность для более свободного доступа лингвистов различной специализации к первичному диалектному материалу, позволяющему анализировать различные явления в речи носителей немецких диалектов. Это определяет параметры 2-7, которые взаимосвязаны и их соблюдение возможно только при правильном подборе компьютерной программы для создания корпуса. Программное обеспечение электронного корпуса позволяет каждому исследователю при минимальных затратах усилий самостоятельно создавать на основе корпуса полные базы данных в соответствии со своими исследовательскими задачами, систематизировать данные по различным заданным параметрам.

Многие европейские корпусы разговорной и диалектной речи используют систему EXMARaLDA (Extensible Markup Language for Discourse Annotation), т.е. расширенную маркированную систему лингвистической аннотации разговорной речи. Это система программ и инструментов для создания, управления, аннотирования и обработки корпуса разговорной речи. Базовой программой для первичного создания корпуса текстов и их аннотирования является Partitur Editor, название которой уже само определяет тип ввода информации: партитурная нотация. В отличие от так называемой драматургической нотации, предполагающей вертикальное расположение текста, партитурная нотация, считающаяся более удачной, строится как музыкальная партитура, но вместо инструментов выступают участники коммуникации. Это позволяет более точно отразить процесс общения в абсолютном измерении (на временной оси) и в отно-сительном измерении, характеризующем речь участников коммуникации в сравнении друг с другом (одновременное говорение, паузы, вставки). Чисто технически партитурная нотация требует большей точности и более сложна в написании. Однако использование специальных средств компьютерной поддержки позволя-ет упростить создание партитурных транскриптов речи .

Программный пакет EXMARaLDA позволяет членить речевой поток в корпусе различными способами, предполагает лингвистическое, метаязыковое и внелингвистическое аннотирование как отдельных единиц текста, так и его фрагментов, содержит метаданные, релевантные для автоматической обработки диалектных текстов. Важным преимуществом этой программы являются ее технические характеристики, возможность конвертирования в другие часто используемые компьютерные форматы и совместимость с другими приложениями и операционными системами. Она позволяет также настраивать формат выдачи текстовых фрагментов от одного слова и предложения до текста, в зависимости от целей исследования (параметр 3). Регулируемые параметры выдачи единиц корпуса и возможность лингвистического аннотирования принципиально важны именно для синтаксических и семантических исследований. Если для первых релевантным будет являться предложение или даже абзац, то для вторых во многих случаях важен более широкий контекст, чем отдельное предложение или словоупотребление.

Следующий параметр (4) определяет формы представления диалектных текстов в корпусе. В большинстве корпусов диалектные тексты представлены только в виде полуорфографической/полутранскрипционной записи. Такая фиксация диалектной речи не позволяет изучать ее фонетическую сторону, в этих условиях бóльшую актуальность приобретает вопрос о включении в корпус аудио- и видеозаписей диалектной коммуникации и формах их соотнесения с символьной расшифровкой. Это позволяет программа EXMARaLDA Partitur-Editor, однако процесс синхронизации каждого отрезка речи (как правило, реплики говорящего) является достаточно сложным с технической точки зрения. Тем не менее наличие аудиозаписи делает корпус более интересным и полноценным. Достичь достаточного единообразия отображения диалектных текстов различных диалектных групп и систем и передать основные диалектные признаки в письменной форме позволяет система HIAT (halbinterpretative Arbeitstranskription - полуинтерпретативная рабочая транскрипция), которая позволяет с помощью традиционных орфографических знаков передать особенности звучания, опираясь на традиционные буквенно-звуковые соответствия. Использование системы транскрибирования HIAT в EXMARaLDA Partitur-Editor позволяет также аннотировать каждый элемент текста не только с лингвистической точки зрения (грамматические категории, формы слова, его стандартное литературное соответствие), но и сопроводить транскрипцию внелингвистическим комментарием (мимика, действия респондента (смех, ироничный тон и т.д.), длительность неразборчивых фрагментов) и синхронизировать ее с аудио- или видеозаписью. Система позволяет также фиксировать параллельную, синхронную речь нескольких говорящих, что очень важно при изучении разговорной речи.

Вторым этапом создания корпуса является объединение затранскрибированных, размеченных и аннотированных текстов в корпус. Для этого используются программы корпусного менеджера, например EXMARaLDA CoMa (Corpus Manager). Этот инструмент в полной мере соответствует требованиям, предъявляемым к корпусным менеджерам: корпусный менеджер должен: строить полные конкордансные списки; искать не только отдельные слова, но и словосочетания; осуществлять поиск по шаблонам (сложные запросы); сортировать списки по нескольким критериям, выбираемым пользователем; давать возможность отображать найденные словоформы в расширенном контексте; давать статистическую информацию по отдельным элементам корпуса; отображать леммы, морфологические характеристики словоформ и метаданные (библиографические, типологические) и пр. Объем возможностей по выдаче данных зависит от первоначального аннотирования, однако этот инструмент позволяет работать как с целым корпусом, так и с его разделами по выбору исследователя.

Как уже отмечалось, оптимальным размером выдачи данных для семантических исследований является микроконтекст (хотя бы на уровне абзаца). Для верификации данных и правильной их лингвистической интерпретации исследователь имеет возможность полнотекстового доступа. Таким образом, исходной предпосылкой создания корпуса является наличие некоторого количества текстов, различные по объему фрагменты которых в последующем являются центральной единицей анализа в лингвистическом корпусе. И такое смещение акцентов в понимании текстового корпуса (от простого собрания) до объекта анализа с помощью автоматизированных систем определяет сферу применения методов и инструментов корпусной лингвистики.

Таким образом, электронные корпусы диалектных текстов являются принципиально новым источником, способствующим приобщению диалектологии к современной научной лингвистической парадигме, в которой изучение основных языковых черт диалекта было бы автоматизировано, обеспечивало бы перекрестные исследования в текстах различных говоров, облегчало бы поиск и выборку необходимых данных и позволяло бы проводить диахронические исследования хотя бы на примере нескольких десятилетий.

Исследование выполнено при финансовой поддержке РГНФ в рамках научно-исследовательского проекта № 12-04-00360 «Текстовый корпус немецких диалектов на Алтае».

Рецензенты:

Москалюк Л.И., д.фил.н., профессор ФГБОУ ВПО «Алтайская государственная педагогическая академия», г. Барнаул;

Колесов И.Ю., д.фил.н., профессор ФГБОУ ВПО «Алтайская государственная педагогическая академия», г. Барнаул.

Библиографическая ссылка

Москвина Т.Н. МЕТОДЫ И ПОДХОДЫ КОРПУСНОЙ ЛИНГВИСТИКИ В ИССЛЕДОВАНИЯХ СЕМАНТИКИ ДИАЛЕКТНОЙ ЛЕКСИКИ // Современные проблемы науки и образования. – 2014. – № 6.;
URL: http://science-education.ru/ru/article/view?id=15784 (дата обращения: 06.04.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Майорова А . Д .

ORCID: 0000-0002-4188-8793, Магистрант кафедры иностранных языков,

Национальный исследовательский университет

«Московский институт электронной техники»

КОРПУСНАЯ ЛИНГВИСТИКА: ИСТОРИЧЕСКИЙ И ЛИНГВОДИДАКТИЧЕСКИЙ АСПЕКТЫ

Аннотация

В статье рассмотрены основные этапы развития корпусной лингвистики. Вначале описаны предпосылки ее развития, указано, какие отрасли языкознания положили начало корпусной лингвистике. Данная статья подробно излагает историю создания первых зарубежных и отечественных корпусов, а также освещает основные спорные вопросы о статусе корпусной лингвистики как самостоятельной научной дисциплины. Последним вопросом, к которому автор обращается в статье, является современное состояние корпусной лингвистики и ее значение в обучении иностранному языку.

Ключевые слова: корпусная лингвистика, национальный корпус, Брауновский корпус, Британский национальный корпус, Национальный корпус русского языка, обучение с помощью корпусов.

Maiorova A.D.

ORCID: 0000-0002-4188-8793, Master program, Department of Foreign Languages,

National Research University of Electronic Technology

CORPUS LINGUISTICS: HISTORICAL AND LINGUISTIC DIAGNOSTIC ASPECTS

Abstract

The article presents the main stages of corpus linguistics development. First, it describes the prerequisites for its development and indicates the branches of linguistics that laid the foundation for corpus linguistics. This article details the history of the first foreign and domestic buildings creation, and also highlights the main controversial questions on the status of corpus linguistics as an independent scientific discipline. The last question the author refers to in the article is modern state of corpus linguistics and its importance in teaching a foreign language.

Keywords: corpus linguistics, national corpus, Brown’s Corps, British National Corps, National Corps of the Russian language, training with the help of corps.

Развитие корпусной лингвистики, а также построение корпусов является одной из актуальных проблем современного языкознания. На данный момент использование корпусов играет ведущую роль при проведении большинства лингвистических исследований. Хотя еще в первой половине ХХ века было возможно построение корпусов только вручную. Это отнимало массу времени, сил и затрат. Поэтому обращение к корпусам текстов было минимальным и лишь в том случае, когда большое количество людей было в этом заинтересовано. Но благодаря развитию корпусной лингвистики использование корпусов стало возможным повсеместно. Структурировать и синхронизировать материал стало гораздо легче, а затраты резко снизились.

Важность развития корпусной лингвистики не вызывает никаких сомнений. В ней объединены многие положительные свойства гуманитарных и технических наук. Но возникнув относительно недавно, она не успела полностью сформироваться, и ее статус как независимой науки еще не установлен. Так, многие ученые рассматривают корпусную лингвистику в качестве подобласти традиционной. Они утверждают, что она имеет лишь прикладное применение, а теоретические обоснования отсутствуют. По их мнению, корпусная лингвистика является улучшенной методикой сбора и обработки материала, новым информационным ресурсом. С другой стороны, если есть прикладная корпусная лингвистика, почему не может быть и теоретической, т.е. дисциплины, обладающей собственным предметом, методом и теорией. Отсутствие теоретической базы на данный момент не влияет на возможность ее разработки в будущем.

В середине XIX в. в научной среде главенствовал рациональный подход, основанный «на лингвистической интуиции, проводящей различие между правильными и неправильными конструкциями» . В противовес такому подходу появляется эмпирический подход, который предлагает рассматривать язык как «ресурс, обеспечивающий набор возможности для коммуникации» . Развитие такого подхода и послужило началом создания корпусной лингвистики. Многие технологии, которые сейчас используются при построении корпусов, были изобретены задолго до появления компьютеров и электронных ресурсов. Некоторые из них использовались еще в XVIII – XIX веках, когда лингвистику начали считать самостоятельной и независимой научной дисциплиной. Захаров В.П. в учебнике «Корпусная лингвистика» называет технологии, которые повлияли на создание корпусов. Он выделяет три основные области лингвистических исследований, которые вошли в основу корпусной лингвистики, хотя и отмечает, что их было гораздо больше .

Первой такой областью он выделяет сравнительно-историческое языкознание. Ученые, работающие в этой области, всегда обращались к огромному количеству различных текстов. Применение технологий по реконструкции праязыков можно встретить и в современной лингвистике. Второй областью, которой Захаров В.П. отдает предпочтение, является составление грамматик и словарей и обучение языку. Действительно, любое грамматическое правило необходимо проиллюстрировать. И в этом случае примеры из текста отлично смогут в этом помочь. Корпусы как источники эмпирических данных играют важную роль при обучении иностранному языку. Последней областью, повлиявшей на развитие корпусов, является социолингвистика. Еще в XIX веке ученые начинают разрабатывать диалектные карты и составлять сборники диалектных отношений. При этом необходимо было учитывать различные критерии при составлении пособий по диалектам. Все эти факторы и послужили началом корпусной лингвистики.

На данный момент корпусная лингвистика успешно развивает технологии и методы, которые привели к ее зарождению. Также не стоит забывать и о технической стороне вопроса. Произошел резкий скачок в развитие компьютерных и информационных технологий. Данные возможности начали успешно применять в лингвистике и языкознание. Благодаря развитию и популяризации мирового Интернета, огромное количество пользователей из разных стран могли воспользоваться данными из корпуса. К тому же больше не возникала проблема полноты и расширенности корпусов. Большинство исследований в области корпусной лингвистики было проведено на материале английских текстов. На это есть две основные причины: во-первых, происходит активное развитие компьютерной техники в Северной Америке и Западной Европе, а во-вторых, складывается благоприятный климат для развития британской лингвистики в 60-80е гг. ХХ в.

Первым лингвистическим корпусом принято считать Брауновский корпус (Brown Corpus). Он был разработан в 1963 году сотрудниками Брауновского Университета, У. Френсис и Г. Кучера. Объем первого корпуса представляется собой 1 млн. словоупотреблений, т.е. в его состав входит 500 фрагментов объёмом по 2000 словоупотреблений из текстов, изданных в 1961 г. в США, разных жанров: художественные тексты известных писателей и поэтов, статьи из газет и журналов, примеры письменной деловой речи и тексты на религиозную тематику. Существует несколько причин создания Брауновского корпуса. В первую очередь, это обеспечение системного исследования английских текстов, принадлежащих к различным жанрам. Во-вторых, предоставление достаточного количества материала для сравнения этих данных. В-третьих, привлечение интереса многих ученых к появлению новой научной дисциплины. Это был прорыв в прикладной лингвистике, который вызвал много споров и дискуссий. Что касается составления самого корпуса, то он строился, с одной стороны, на основе статистических данных, а, с другой стороны, на опыте и интуиции ученых. Чтобы достичь объективности, было необходимо использование простых и прозрачных текстов.

Позднее в 1971-78 годах, по примеру своих американских коллег, европейские ученые занялись составлением другого корпуса текстов. Он получил название ЛанкастерскоОслоБергенский корпус британского варианта современного английского языка (The Lancaster Oslo / Bergen Corpus of British English , LOB ). Составлением данного словаря занимались в основном британские и норвежские ученые. Они руководствовались теми же принципами, что и ученые из Брауновского Университета. На период создания он состоял из 500 текстов, принадлежащих к различным жанрам, объемом 2000 словоупотреблений.

Наиболее популярным на данный момент является Британский национальный корпус (British National Corpus , BNC ) .Создан он был 1991-1994 гг. исследователями из Оксфордского Университета и Университета Ланкастер. Его объем составляет 100 млн. словоупотреблений и он значительно больше, чем его предшественники. По составу он на 90% состоит из письменных текстов и на 10% из устных. Тексты принадлежат к концу ХХ века и представляют различные жанры. В нем можно встретить газетные статьи, научно-популярную литературу, примеры деловой переписки, тексты на религиозную тематику, транскрибированные записи неофициальной речи, радио-шоу, правительственной речи и пр.

Стоит отметить, что именно Британский корпус получил статус «национальный» первым. Плунгян В.А. пишет, что «для британцев слово «национальный» означало в первую очередь «характеризующий британский национальный вариант английского языка». Ведь существуют также американский и австралийский вариант английского языка. Но спустя время данный корпус стал эталоном всех корпусов и значение слова «национальный» несколько изменилось. Национальным стали называть корпус, который является самым большим и представительным и который, характеризует язык данной страны в целом. Плунгян В.А. отмечает, что национальный корпус должен быть не просто большим по объему, но и содержать тексты различных жанров во всем их многообразии в данный исторический период, и при этом содержать их в правильной пропорции .

Многие страны по примеру Британского Национального Корпуса решили создать свои национальные корпуса. Россия не является исключением. На протяжении семи лет с 2003 по 2010 гг. ученые работали над созданием единой текстовой базой. Ассоциация «Национальный корпус русского языка» предложила сотрудничество компании «Яндекс» и при их технической поддержке был разработан сайт, на котором и размещен нынешний вариант Национального корпуса русского языка. В его составе находится более 163 млн. словоупотреблений за период от середины XVIII до начала XXI века. Благодаря наличию текстов из различных эпох в нем можно найти примеры как современных, так и исторических текстов. При этом тексты принадлежат к литературному, разговорному, официально-деловому и научному стилям. Национального корпуса русского языка содержит много примером просторечий, жаргонизмов и диалектов. На официальном сайте Национального корпуса русского языка есть справочная статья о значение термина «корпус», о правилах пользования, а так же четко определяется цель его создания. Также там описана структура Национального корпуса. На данный момент он состоит из следующих разделов:

  • Основной корпус (прозаические письменные тексты XVIII - начала XXI века);
  • Синтаксический корпус (в котором для каждого предложения построена полная морфологическая и синтаксическая структура);
  • Газетный корпус (статьи из СМИ 1990-2000-х годов);
  • Параллельные корпуса (в которых можно найти все переводы для определенного слова или словосочетания на русский язык или с русского языка);
  • Корпус диалектных текстов;
  • Корпус поэтических текстов;
  • Обучающий корпус русского языка (корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка);
  • Корпусной устной речи;
  • Мультимедийный корпус (включает снабженные видео- и аудиорядом фрагменты кинофильмов 1930-2000-х годов.
  • Корпус истории русского ударения (тексты, несущие информацию об истории русского ударения);

Как можно видеть из структуры, Национальный корпус охватывает почти все грани языка.

Стоит отметить, что национальный корпус является не единственным корпусом русского языка. Грудева Е.В. в своей работе «Корпусная лингвистика» выделяет еще несколько корпусов . Первым из них является Упсальский корпус русского языка (The Uppsala Russian Corpus ). Он является первым корпусом русского языка. Над созданием Упсальского корпуса работали ученые из университета Упсалы в Швеции в конце 1980-х – начале 1990-х гг. Он включает в себя 600 фрагментов художественных и информативных текстов объемом около 1 млн. словоупотреблений.

Также стоит обратить внимание на еще один корпус русского языка. Разработан он был в 1999 – 2004 гг. в Германии, в Тюбингенском университете. Свое название получил согласно месту, где был создан (Тюбингенский корпус русского ). Разработан он был на основе Упсальского корпуса, но количество словоупотреблений выросло до 25 млн. словоупотреблений.

Вернемся на несколько десятилетий назад, к тому моменту, когда начались рьяные споры о ее статусе как о независимой дисциплине. Хочется напомнить, что в 60-80-ые годы XX в., когда начали создаваться первые корпусы в США и Западной Европе, в научной среде главенствовал рациональный (хомскианский) подход. Ноам Хомский и его сторонники разделяли мнение, что построение правильных и неправильных языковых конструкций может быть осуществлено только лишь на основе интуиции носителей языка. Американский лингвист был ярым противником корпусного подхода, и этому есть много подтверждений. Известен ответ Н. Хомского на вопрос интервьюера о том, как Хомский относится к корпусной лингвистике: «Таковой не существует» . А в одной из телеконференций Corpora-List сторонники Н. Хомского вступили в дискуссию об иррелевантности корпусов . Сторонник Н. Хомского, профессор Роберт Лиз в 1962 году на одной из конференций в Университете Браун заявил, что создание корпуса «бессмысленная трата вашего времени и правительственных денег. Вы – носитель английского языка; в течение десяти минут вы способны представить больше примеров на любое явление английской грамматики, чем сможете найти во многих миллионах слов случайных текстов» . Доля истины в их утверждениях, несомненно, присутствует, тем не менее, у корпусной лингвистики нашлось немало сторонников, как среди ученых, так и в правительстве. Все больше и больше средств стало выделяться на создание и модернизацию корпусов. «В настоящее время лингвистика во многом избавилась от раннегенеративистских иллюзий, в частности, от уверенности, что лингвистические механизмы как таковые могут быть познаны с привлечением весьма ограниченного набора примеров (обычно сочиненных самим лингвистом). На смену этим достаточно наивным представлениям приходит понимание необходимости строить исследование даже самого «мелкого» фрагмента языковой системы с использованием репрезентативного множества текстов соответствующего языка» . В качестве множества текстов, конечно, выступает лингвистический корпус. Хотя критерии репрезентативности такого корпуса еще недостаточно ясны, задача, которую ставят перед корпусом, уже вполне определена. «Корпус должен обладать количественными и качественными параметрами, необходимыми и достаточными для построения на его основе адекватных словаря и грамматики соответствующего языка» .

При создании Национального корпуса ученые, конечно, задавались очевидным вопросом: для кого же корпус окажется полезным? В каких сферах жизни его можно применить? На этот вопрос достаточно полно ответил Плунгян В.А. в своей работе «Зачем нужен Национальный корпус русского языка?». В первую очередь, он является неоценимым инструментом для профессиональных лингвистов: «Они, так или иначе, имеют дело с фактами языка, а значит, должны эти факты собирать и систематизировать» . Во-вторых, он очень полезен для программистов. Неудивительно, что они сразу поддержали идею о его создании. Конечно, лингвистический корпус пригодится и для людей, связавших свою жизнь со словом, например, писателей, редакторов газет и журналов. Любой сложный момент можно проверить, обратившись к корпусу.

И, наконец, отличным помощником корпус станет для преподавателей и учителей, как в школе, так и в ВУЗе. В ведущих вузах мира становится повседневной практикой использование корпусных данных в качестве материала для лекционных курсов, студенческих заданий и самостоятельных проектов.

Во всем мире в высших учебных заведениях данные из лингвистических корпусов применяются при составлении различных лекционных курсов и заданий для студентов. Многие студенты сами используют корпусные данные при работе над проектами и домашними заданиями. Можно предположить, что студенты, поощряемые к самостоятельному изучению языка, его особенностей и черт, овладевают языковыми компетенциями быстрее и эффективнее, чем те, кому вбиваются в голову правила.

На данный момент одним из самых популярных направлений корпусного подхода в обучении иностранному языку является обучение с помощью корпусов , или data driven learning (DDL ) . Суть данного обучения заключается в том, что студенты используют «сырые» языковые данные напрямую из корпуса. Это направление основано на предположении, что студенты могут гораздо более эффективно осваивать язык, когда в процессе обучения поощряется использование модели наблюдай – предполагай – экспериментируй, т.е. когда они имеют возможность делать собственные выводы относительно значений слов, фраз, грамматических правил на основе языкового материала. Процесс не обязательно ограничен терминалом компьютера. Результаты корпусных поисков (конкордансов) в распечатанном виде могут быть легко инкорпорированы в раздаточный материал, методические пособия и т.п.

Корпусный подход при обучении иностранному языку меняет характер учебной деятельности учащегося и ставит его в центр процесса обучения. Роль учителя будет заключаться в организации и осуществлении контроля исследовательской деятельности учеников. При этом формирование способности обучающихся к автономному овладению лингвистическими знаниями и умениями потребует от педагога определенных усилий по созданию методических материалов. Как отмечает Н.Л. Байдикова, «одна из функций педагога по организации обучения эффективным приемам самостоятельной работы – методическое обеспечение данного процесса. Разработка пособий представляется важнейшей задачей, иначе организация самостоятельной работы студентов превращается в трудоемкий, громоздкий и неэкономичный процесс» . Следует быть готовым, что корпус не всегда выдаст данные, соответствующие толковому словарю. Многие примеры могут быть сложны для понимания учащихся.

Таким образом, лингвистический корпус – это средство для решения не только научных, но и учебно-методических задач. Польза от ее применения в различных областях не вызывает никаких сомнений, хотя теоретическая база еще до конца не проработана. Именно поэтому ученые до сих пор не могут ответить на вопрос: «Что же такое корпусная лингвистика: новая научная дисциплина или всего лишь информационный ресурс?» Мы надеемся, что в скором времени ответ на этот вопрос будет найден и корпусная лингвистика станет независимой научной дисциплиной.

Список литературы / References

  1. Шаров С. А. Представительный корпус русского языка в контексте мирового опыта / С. А. Шаров // Научнотехническая информация. – Сер. 2. – – № 6. – С. 12–16.
  2. Захаров В. П. Корпусная лингвистика: учеб.-метод. Пособие / В. П. Захаров. – СПб., 2005. – 48 с.
  3. Плунгян В. А. Зачем нужен Национальный корпус русского языка? Неформальное введение / В. А. Плунгян // Национальный корпус русского языка: 2003 – 2005. – М.: Индрик. – – С. 6 – 20.
  4. Венцов А. В., Грудева Е. В., Касевич В. Б., Ягунова Е. В. Национальный корпус русского литературного языка: некоторые результаты, приложения и задачи / Венцов А. В., Грудева Е. В., Касевич В. Б., Ягунова Е. В. // Научнотехническая информация. – Сер. 2. – – № 6. – С. 35–36.
  5. Венцов А. В., Грудева Е. В. О корпусе русского литературного языка / А. В. Венцов, Е. В. Грудева // Russian Linguistics. – – № 2. – С. 195 – 209.
  6. Фрэнсис У.Н. Проблемы формирования и машинного представления большого корпуса текстов / У.Н. Фрэнсис // Новое в зарубежной лингвистике. Выпуск Проблемы и методы лексикографии. – М.: Прогресс. – 1983. – С. 334 – 335
  7. Венцов А. В., Касевич В.Б., Ягунова Е.В. Корпус русского языка и восприятие речи / А. В. Венцов, В.Б. Касевич, Е.В. Ягунова // Научно-техническая информация. – Сер. 2. – – № 6. – С. 25 – 27.
  8. Грудева Е.В Корпусная лингвистика: учеб. пособие / Е.В. Грудева. – 2-е изд., стер. – М.: ФЛИНТА, 2012. – 165 с.
  9. Байдикова Н.Л. Формирование учебной компетенции у студентов языковых факультетов вузов в процессе обучения теоретическим дисциплинам / Н.Л. Байдикова // Актуальные проблемы международного сотрудничества в области науки и образования: Материалы III международной научно-практической конференции (заочной). – Тамбов: ТГУ им. Г. Р. Державина. – – С. 105 – 109.
  10. Brown Corpus: [электронный ресурс]: http://clu.uni.no/icame/brown/bcm.html#bc3 (дата обращения: 05.04.2017).
  11. The Lancaster-Oslo/Bergen Corpus of British English, LOB: [электронный ресурс]: http://clu.uni.no/icame/manuals/LOB/INDEX.HTM (дата обращения: 05.04.2017).
  12. British National Corpus, BNC: [электронный ресурс]: http://www.natcorp.ox.ac.uk/ (дата обращения: 05.04.2017).
  13. Национальный корпус русского языка: [электронный ресурс]: http://www.ruscorpora.ru/index.html (дата обращения: 05.04.2017).
  14. The Uppsala Russian Corpus: [электронный ресурс]: http://www.slaviska.uu.se/korpus.htm (дата обращения: 05.04.2017).
  15. Тюбингенский корпус русского языка: [электронный ресурс]: http://www.sfb441.uni-tuebingen.de/b1/- en/korpora.html (дата обращения: 05.04.2017).

Список литературы на английском языке / References in English

  1. Sharov S.A. Predstavitel’nyj korpus russkogo jazyka v kontekste mirovogo opyta / S.A. Sharov // Nauchno-tehnicheskaja informacija . – Ser. 2. – 2003. – № 6. – P. 12–16.
  2. Zaharov V.P. Korpusnaja lingvistika: Ucheb.-metod. posobie / V.P. Zaharov. – SPb., 2005. – 48 P.
  3. Plungjan V.A. Zachem nuzhen Nacional’nyj korpus russkogo jazyka? Neformal’noe vvedenie / V.A. Plungjan // Nacional’nyj korpus russkogo jazyka: 2003 – 2005 . – M.: Indrik. – 2005. – P. 6 – 20.
  4. Vencov A.V., Grudeva E.V., Kasevich V.B., Jagunova E.V. Nacional’nyj korpus russkogo literaturnogo jazyka: nekotorye rezul’taty, prilozhenija i zadachi / A.V. Vencov, E.V. Grudeva, V.B. Kasevich, E.V. Jagunova // Nauchno-tehnicheskaja informacija . – Ser. 2. – 2005. – № 6. – P. 35–36.
  5. Vencov A.V., Grudeva E.V. O korpuse russkogo literaturnogo jazyka / A.V. Vencov, E.V. Grudeva // Russian Linguistics. – 2009. – № 2. – 195 – 209.
  6. Frjensis U.N. Problemy formirovanija i mashinnogo predstavlenija bol’shogo korpusa tekstov / U.N. Frjensis // Novoe v zarubezhnoj lingvistike. Vypusk XIV. Problemy i metody leksikografii . – M.: Progress. – 1983. – P. 334 – 335.
  7. Vencov A.V., Kasevich V.B., Jagunova E.V. Korpus russkogo jazyka i vosprijatie rechi / Vencov A.V., Kasevich V.B., Jagunova E.V. // Nauchno-tehnicheskaja informacija . – Ser. 2. – 2003. – № 6. – P. 25 – 27.
  8. Grudeva E.V Korpusnaja lingvistika: ucheb. posobie / E.V. Grudeva. – 2 nd – M.: FLINTA, 2012. – 165 P.
  9. Bajdikova N.L. Formirovanie uchebnoj kompetencii u studentov jazykovyh fakul’tetov vuzov v processe obuchenija teoreticheskim disciplinam / N.L. Bajdikova // Aktual’nye problemy mezhdunarodnogo sotrudnichestva v oblasti nauki i obrazovanija: Materialy III mezhdunarodnoj nauchno-prakticheskoj konferencii (zaochnoj) . – Tambov: TGU im. G. R. Derzhavina . – 2011. – P. 105 – 109.
  10. Brown Corpus: : http://clu.uni.no/icame/brown/bcm.html#bc3 (accessed: 05.04.2017).
  11. The Lancaster-Oslo/Bergen Corpus of British English, LOB: : http://clu.uni.no/icame/manuals/LOB/INDEX.HTM (accessed: 05.04.2017).
  12. British National Corpus, BNC: : http://www.natcorp.ox.ac.uk/ (accessed: 05.04.2017).
  13. Nacional’nyj korpus russkogo jazyka : : http://www.ruscorpora.ru/index.html (accessed: 05.04.2017).
  14. The Uppsala Russian Corpus: : http://www.slaviska.uu.se/korpus.htm (accessed: 05.04.2017).
  15. Tjubingenskij korpus russkogo jazyka : : http://www.sfb441.uni-tuebingen.de/b1/- en/korpora.html (accessed: 05.04.2017).

Корпус – репрезентативное собрание текстов, обычно в читаемом машиной формате и включающее информацию о ситуации, в которой текст был произведен, такую как информация о говорящем, авторе, адресате или аудитории.

Корпусная лингвистика – деятельность, требующаяся для составления и использования корпуса, направленная на исследование естественного использования языка.

Цель КЛ – исследование естественного использования языка.

Задачи КЛ:

Сбор текстов с определенной целью

Их машинная обработка

Помощь в создании словарей (лексикографическая поддержка)

Составление конкордансов (список встречающихся в тексте словоформ, располож в алфавитном порядке. В противоположность словарю, слово дается с его словесным окружением).

Составление частотных словарей

Создание национальных корпусов

Исследование использования естественного языка в разных регистрах

Помощь в создании лингводидактических пособий

Проверка лингвистических теорий

Существует 2 типа корпусов: Национальный (средний объем 160 млн слов) и корпусы, предназначенные для определенных целей. Национальный корпус представляет данный язык на определенном этапе (ах) его существования и во всем многообразии жанров, стилей, территориальных и социальных вариантов. # ruscorpora.ru

Методы КЛ – КЛ сама представляет собой пучок методов из разных областей лингвистических исследований.

Главная цель КЛ – лингвистическое описание яз системы (подход от конкретного изучения коммуникации людей), особый способ отражения речевого материала в корпусе текстов, кот может использоваться в свою очередь другими лингв дисциплинами.

КЛ имеет 2 черты, дающие основание претендовать на положение самостоятельной дисциплины:

Характер используемого словесного материала

Специфика инструментария

Отступления КЛ:

КЛ не отрицает ценности и необходимостиречевых данных, не представленных в корпусной форме

КЛ утверждает то, что из корпусов текстов невозможно извлечь все возможные лингв выводы, те корпус текстов не является самодостаточным.

Лингв корпусы:

1) Brown corpus (1млн слов)

2) LOB (London Oslo/Bergen corpus) (1 млн слов британского англ, аналог Brown corpus)

3) British national corpus

4) International corpus of English (600 тыс словоупотреблений)

5) Bank of English (585млн словоупотреблений)

6) Co build corpus

7) Американский национальный корпус (в свободном доступе 14 млн словоупотреблений, 15 % объем устных текстов от общего объема)

КЛ лучше всего представляется в виде пучка методов, процедур и ресурсов, имеющих дело с эмпирическими данными в лингвистике. В качестве методологии, подъем современной КЛ тесно связан с историей лингвистики как эмпирической науки.

В основе КЛ лежали:

1) историческая лингвистика – изменения в языке и реконструкция (сравнительно историч метод)

2) Написание грамматик, лексикография и обучение языку (Герман Пауль)

3) Социолингвистика – языковое многообразие.

14. Судебная лингвистика: цели, задачи, методы.

Судебная лингвистика – раздел прикладной лингвистики. Дисциплина, в которой научные знания о языке, накопленные в теоретической лингвистике, используются в сфере судопроизводства (forensic linguistic, от лат forum – место для дебатов в суде и forensic). Термин предложен в 1968 году британским лингвистом Яном Свартвиком, который в этом же году произвел лингвистический анализ судебных документов по делу Тимати Эвенса (Эвенс был повешан за убийство его жены и ребенка). Свартвик убедил суд, что Эвенс невиновен и был посмертно оправдан.

Сейчас судебной лингвистикой называют все аспекты судопроизводства, требующие лингвистических знаний как в сфере защиты, так и в сфере обвинения и в судебном разбирательстве в целом.

С 70 годов ХХ века стали опубликовывать статьи о суд лингвистике в научных журналах. В основном по установлению авторства в документах. Далее возникли другие аспекты и проблемы, связанные с критической лингвистикой (1979г). в этом году опубликована книга «Language and control». Авторы поставили проблему анализа языка как контроля над другими. Язык стал изучаться как что-то еще для понимания чего-то еще: что-то еще – социальное и экономическое устройство общества, организация социального порядка, структура межличностных отношений. Критическая лингвистика отвергает понятие объективной действительности в обществе. Мысль: Все что есть в обществе, могло бы быть каким либо другим.

Тематика исследований, ведущихся в русле критической лингвистики разнообразна и включает в себя анализ того, каким образом язык (дискурс) способствует созданию и поддержанию социальных явлений (политическая и этическая неккоректность). Этноцентризм (Россия для русских), расизм, сексизм, угнетение, неравенство. Также в критической лингвистике исследуется язык, способы осуществления власти, манипуляции, пропаганды доминирования, дискриминации, соц влияние, стереотипы. в результате такого анализа вскрывается зависимость между социальной и лингвистической структурами. Критическая лингвистика доказывает, что выбор языковых знаков мотивируется соответствующей идеологией.

Критическая лингвистика имеет выход и в сферу суд лингвистики. Он был впервые осуществлен в связи с постановкой задачи создания текстов законов понятных простым гражданам. В 1982 году Водак в Австрии организовала лингвистическую команду, которая в течении 3 лет проводила тесты на понятность текстов законов для простых людей. На примере закона «О применении техники в строительстве» она делает вывод, что понятность текстов законов – общ-политич проблема. Необходимо принимать срочные меры, чтобы приблизить законы к гражданину и убрать барьеры при их чтении и непонимании.

По ходу развития суд лингвистики анализу подверглись различные аспекты коммуникаций во время суд процесса. Лингвистов интересовало, понимают ли присяжные инструкции, полученные перед вынесением вердикта. Изучение показало, что многие присяжные не понимают значимость предъявляемых доказательств, аргументацию сторон и обращенные к ним инструкции и вопросы судьи.

След проблема – адекватной интерпретации смысла того или иного языкового выражения, употребляемого обвиняемым или свидетелем. Это направление заложено Малькольмом Култхардом. Он провел лингвистическую экспертизу по делу Бентли, кот был повешан в 50 годах ХХ века. Экспертиза в 80 годах помогла оправдать Бентли посмертно.

Изучение интересующих суд лингвистику типов языковых коммуникативных личностей. # неискренняя дискурс. личность, угражающая личность, плагиатор (человек, ворующий чужой дискурс).

Трудности, испытываемые некоторыми говорящими в процессе судебной коммуникации. # с детьми; людьми, говорящими на диалекте; иностранцами.

В последнее время – проблема суд перевода и необходимости подготовки квалифицированных суд переводчиков..

Итак, в настоящее время суд лингвистика решает след проблемы (задачи):

Установление смысла того или иного слова, высказывания, текста

Критический анализ лингв аспектов, взаимосвязь юридической системы и общества

Выявление юридически значимых типов дискурса

Суд перевод и иные виды обеспечения суд процесса

В ряде стран для принятия суд лингвистики судами есть более прочная основа, в частности в США. Там любой научный метод применяется судом, если он проходит тест Дауберта, кот отвечает след критериям:

Знание и статус эксперта – эксперт должен иметь достаточно знания в области, должное образование, опыт работы и иметь статус в академич или другом сообществе

Проверяемость метода – техника, процедура дБ эмпирически тестируемой, проверяемой на фактах. Методика дБ опровергаемой и подвергаемой сомнению.

Peer review (человек равный по статусу) . Процедура дБ подтверждена научным сообществом и дБ опубликована и отрецензирована

Error ray (процент ошибок)

Понятность – эксперт д объяснить сущность процедуры

Voice parade – опознание подозреваемого по голосу жертвой или свидетелем преступления (Nolan фонетист)

Автоматическое распознавание говорящего по голосу (комп определяет кто говорит)

Метод дискриптивного анализа идиолекта (индивидуальное варьирование языка) – снятие лингв отпечатков идиолекта (редкие слова, выражения)

Семантический анализ – анализ значений, имеющихся или отсутствующих у тех или иных языковых выражений.