<<
>>

3.3 Выбор корпуса

Алгоритм отбора материала для исследования. Объектом данного исследования является группа абстрактных существительных в устной речи англичан. Для получения статистически репрезентативной выборки мы следовали следующему алгоритму:

1.

Выбор корпуса. На данный момент в распоряжении исследователей несколько корпусов современного английского языка, каждый из которых включает источники, отобранные по критериям той или иной команды составителей. В зависимости от целей составления базы данных языка, набор источников, лексики и аннотаций может различаться. Следовательно, необходимо было рассмотреть разработанные к настоящему времени корпусы и выявить наиболее точно подходящий целям исследования — как по объему и источникам материала, так и по возможности его анализировать.

2. Выбор раздела корпуса. Помимо выбора корпуса английского языка, важно было определить его составляющую (устная/письменная речь, демографический/контекстуальный корпус).

3. Отбор имен. Далее из общего числа лексем в базе данных с помощью аннотаций отбираются нарицательные имена существительные.

4. Отбор абстрактной лексики. Единицы полученного ряда существительных сортируются на подкласс абстрактных и конкретных.

Выбор корпуса Интерес к созданию базы данных языка и технические возможности, накопленные к концу ХХ века, сделали возможным появление ряда корпусов национальных языков. В отличие от большинства корпусов, создающихся под определенное исследование или ограничивающих объект изучения, национальный корпус призван дать наиболее возможно полное описание современного языка и/или его диахронического развития. В настоящее время существует ряд корпусов, где собран материал английского языка, полностью или частично доступный для исследований. Рассмотрим эти базы данных с учетом задач данной работы, а именно: чтобы изучить категорию абстрактных существительных в речи англичан, необходим корпус, содержащий демографически и стилистически репрезентативную устную часть, представляющую современный английский язык.

Таким образом, корпус должен удовлетворять следующим требованиям:

1. наличие устной части с большим числом входных единиц;

2. отражение современного английского языка;

3. отражение британского варианта (Англия) английского языка;

4. демографическая репрезентация носителей языка (сбалансированное участие представителей разных социальных групп - по полу, возрасту и социальному классу);

5. аннотирование единиц, достаточное для поиска информации по характеристикам слова и источника.

Рассматривая первое требование, нужно отметить, что многие корпусы включают устную часть (например, BNC, Bank of English), а некоторые целенаправленно занимаются сбором данных устной речи. Среди таких проектов следует отметить первый электронный корпус спонтанной речи The London-Lund Corpus (100 текстов по 5000 слов), результат объединения двух проектов - the Survey of English Usage Университетского колледжа Лондона (UCL), Англия, и Survey of Spoken English Лундского университета, Швеция. Сбор материала производился в 1953 -1987-х годах.

Необходимо также упомянуть Lancaster/IBM Spoken English Corpus, включивший записи радиопередач 1984 - 1991-х годов. При подборе материала для этого проекта исследователи стремились добиться сбалансированного представления, во-первых, стилистически маркированных текстов (поэзия, пропаганда, речи) и диалогов, а во-вторых, гендерной репрезентации (женщины составляют лишь 30% говорящих, что отражает соотношение мужчин и женщин на Би-би-си того времени). The Bergen Corpus of London Teenage Language (COLT) - первый значимый корпус, посвященный речи англоязычных подростков. Материал корпуса, основанный на 55 часах записей, хорошо аннотирован и представляет сбалансированную выборку подростков по возрасту, полу и социальной группе (а также включает речь взрослых, родителей и преподавателей). Из-за того, что указанные корпусы представляют лишь отдельный срез англоязычного общества, они не соответствуют требованиям данной работы.

Следующий ряд корпусов также не отвечает задачам исследования, так как он фокусируется либо на материале небританского варианта английского языка (The Longman Spoken American Corpus, The Santa Barbara Corpus of Spoken American English, The Saarbrucken Corpus of Spoken English, The Wellington Corpus of Spoken New Zealand English), либо на диалектах британского языка (The Spoken Corpus of the Survey of English Dialects).Так как целью последнего было собрание материала «чистых», несмешанных диалектов английского языка, в записи речи участвовали люди старше 60 лет.

Другое исследование, The Intonational Variation in English Corpus, напротив, записывали подготовленные и спонтанные тексты подростков 16-ти лет, чтобы проследить различия в интонации людей одного

возраста и образования, но разного пола, а также социального и регионального происхождения.

Одним из наиболее сбалансированных в плане жанров текста и демографических характеристик говорящих можно считать The Cambridge and Nottingham Corpus of Discourse in English (часть Cambridge International Corpus), где помимо стандартных аннотаций ввели пометку, указывающую на отношения между говорящими: близкие (совместное проживание), дружеские, партнерские и другие. С другой стороны, весь материал корпуса можно разделить по типу взаимодействия: предоставление информации, совместная работа, совместное обсуждение. Однако в настоящее время данный корпус не доступен для работы и исследований.

При отсутствии единого устного корпуса, обратимся к крупным проектам национальных корпусов английского языка. Первым корпусом современного английского языка был так называемый the Brown Corpus (the Brown University Standard Corpus of Present-day American English), составленный в 1960-х. Корпус изначально предназначался для исследований в области компаративистики, поэтому с течением времени «семейство» брауновского корпуса значительно расширилось и на данный момент включает Brown (American English, 1961), Frown (American English, 1991-1992), Lancaster-Oslo-Bergen Corpus (British English, 1961), Lancaster 1931 (British English, 1931+/-3years), FLOB (British English, 1991-1992), Kohlapur (Indian English, 1978), Australian Corpus of English or Macquarie Corpus (Australian English, 1986), Wellington Corpus of Written New

Zealand English (New Zealand English, 1986-1990) и Lancaster Corpus of Mandarin Chinese (Mandarin Chinese, 1991+/-3 years). Все вышеупомянутые корпусы включают по одному миллиону слов из 500 отрывков, что позволяет считать их достаточно репрезентативными для работ по сравнению вариантов английского языка, а также языков разных языковых семей (например, китайского и английского).

Более того, подобная коллекция баз данных может быть полезной при диахронических исследованиях английского языка. Тем не менее, для изучения какого-либо явления в современном состоянии каждый из данных корпусов самостоятельно не представляет значительной ценности. Аналогичные цели, т.е. исследование вариантов английского языка в синхронии, преследуют и другие корпусы, такие как the International Corpus of English или the Longman/Lancaster Corpus, предлагающие небольшой срез языка в разных странах. Ряд других баз располагает данными для диахронического исследования английского языка: the Helsinki Corpus of English Texts, the Archer Corpus, the Lampeter Corpus of Early Modern English Tracts, the Dictionary of Old English Corpus in Electronic Form, The Early English Books Online database, the Corpus of Early English Correspondence, the Corpus of English Dialogues (содержащие материал диалогов на раннем новом английском). Учитывая цели данной работы, корпусы, предназначенные для сравнительных исследований в диахронии или для исторических исследований, не включают достаточный для исследования материал.

Одним из наиболее полных проектов корпусов несомненно является The British National Corpus (BNC), включающий около 100 млн слов. 90% единиц корпуса - из письменных источников, отобранных по трем основным критериям: область, время и формат. Под «областью» при этом понимается предметная область текста (например, «Финансы», «Прикладные науки», «Искусство» и другие); параметр «время» отражает дату/период публикации (1960-1974, 1975­1993 или «дата неизвестна»), а «формат» - вид публикации (например, книга, периодика, неопубликованные манускрипты). Меньшую часть (10%) корпуса составляет устный подкорпус, при отборе материала в который составители руководствовались двумя дополняющими друг друга параметрами - «демографическим» (для отбора спонтанных разговоров) и «контекстуальным» (для отбора записей встреч и передач). С одной стороны, для наиболее полного представления языка необходимо учитывать формат и контекст устной речи, поэтому половину устного подкорпуса BNC составляют неформальные разговоры, деловые встречи, лекции, радио передачи и др.

Все источники можно разделить на четыре категории - образовательная/информативная (лекции, новостные и образовательные передачи - 20,56% источников), деловая (презентации товаров, встречи профсоюзов, собеседования - 21,47%), публичные речи (речи политиков, заседания парламента, проповеди - 21,86%) и развлекательные (спортивные комментарии, заседания клубов, звонки на радио - 23,71%). Таким образом, можно отметить, что указанные четыре категории представлены практически равнозначно (12,38% источников остались неклассифицированными). Вторая половина устной части корпуса - спонтанные разговоры, записанные 124 добровольцами в 38 городах Великобритании. Для демографически достоверной репрезентации речи британского общества в корпусе, в проекте участвовало одинаковое количество мужчин и женщин, практически равномерно представляющих различные возрастные группы и социальные классы.

Все входные единицы корпуса BNC аннотированы, что позволяет производить поиск по частям речи, источникам и их характеристикам.

Другим значимым корпусом английского языка является the Bank of English, разработанный в Бирмингемском университете в рамках проекта COBUILD (Collins Birmingham University International Language Database). На данный момент в корпусе 524 млн слов (75% составляют письменные тексты и 25% - транскрипты речей, передач и разговоров). Основное достоинство данного корпуса в том, что он постоянно пополняется, что позволяет оперативно отслеживать новые слова и значения, а также вышедшие (или выходящие) из употребления. Благодаря этому, корпус особенно полезен при решении лексикографических задач. Тем не менее, свободно можно получить доступ лишь к 10% корпуса (случайно выводимая, а, следовательно, не выверенная демографически доля лексики), и вывести не более 40 строчек результата, что не может отражать действительной и полной лингвистической картины при поиске не по слову, а по определенным критериям.

Следовательно, из значительного ряда корпусов английского языка, созданных к настоящему времени, задачам и требованиям данного исследования отвечает только British National Corpus, так как располагает большой базой данных устной речи (10 млн слов), отражающей языковую ситуацию в британском варианте английского языка (с возможностью выделить только регионы Англии); в корпусе соблюден демографический баланс по социальным группам. Кроме того, как отмечалось выше, входные единицы корпуса аннотированы для более удобного и точного поиска по словарной базе.

<< | >>
Источник: Хохлова Наталия Вениаминовна. Абстрактные имена существительные в речи англичан (социолингвистический аспект) .Диссертация на соискание учёной степени кандидата филологических наук. 2015

Еще по теме 3.3 Выбор корпуса:

  1. Л. Г. ЗАХАРОВА САМОДЕРЖАВИЕ И РЕФОРМЫ В РОССИИ. 1861 — 1874 (К ВОПРОСУ О ВЫБОРЕ ПУТИ РАЗВИТИЯ)
  2. НАЧАЛО СОЦИАЛЬНЫХ РЕФОРМ. «ЛЕВ ИЗ ТАРАПАКА»
  3. ЧИЛИЙСКИЙ ПУТЬ К СОЦИАЛИЗМУ — ПРАВИТЕЛЬСТВО НАРОДНОГО ЕДИНСТВА (1970-1973)
  4. № 138 ПРОТОКОЛ ЗАСЕДАНИЯ ВОЛОСТНОГО СЪЕЗДА СОВЕТОВ ВТОРОЙ КАРАОБИНСКОй ВОЛОСТИ УРАЛЬСКОГО УЕЗДА О ВЫБОРЕ ДЕЛЕГАТОВ НА УЕЗДНЫЙ СЪЕЗД СОВЕТОВ 24 декабря 191Э г.
  5. 3. КРЕСТЬЯНСКОЕ ДВИЖЕНИЕ
  6. ПАРЛАМЕНТСКИЕ ВЫБОРЫ 2 ЯНВАРЯ 1956 ГОДА. ПРАВИТЕЛЬСТВО ГИ МОЛЛЕ
  7. § 1. Муниципальные выборы
  8. ВИТРИНА УПРАВЛЯЕМОЙ ДЕМОКРАТИ (выборы без выбора в Башкортостане)
  9. ГЛАВА 3. ПАРЛАМЕНТАРИЙ В ДОРЕВОЛЮЦИОННОЙ РОССИИ: ПРАВОВОЙ И ОБЩЕСТВЕННЫЙ СТАТУС
  10. Комментарии
  11. МЕЖДУ ФЕВРАЛЕМ И ОКТЯБРЕМ 1917 Г.: СУТЬ ВЫБОРА И ПРЕДПОСЫЛКИ ВОЙНЫ
  12. Агрегация интересов: выборы, партии и партийная система
  13. Конституционно-правовая основа и административное устройство
  14. Корпус рекламных сообщений
  15. Корпус рекламных сообщений
  16. ВЫБОР НЕВЕРБАЛЬНОГО ПОВЕДЕНИЯ ПРИ СОЗДАНИИ ПСИХОЛОГИЧЕСКОГО КЛИМАТА В СЕМЬЕ
  17. Проблема выбора материала исследования для изучения иронии