<<
>>

1.2 Отбор материала для исследования.

После выбора наиболее подходящего корпуса, было необходимо определить и выделить ту его часть, которая отвечает поставленным задачам. Из устной части корпуса BNC наибольший интерес представляет отобранный по демографическим параметрам «разговорный, диалоговый корпус» (conversational corpus), так как публичные речи стилистически окрашены, что может влиять на общие результаты исследования.
Рассмотрим соотношение социологических параметров демографической части устного корпуса. Он состоит из записей 124 добровольцев, отобранных «на основании их возраста, пола, региона, социального класса и так далее» (McEnery & Wilson 1996: 65). Важно отметить, что, несмотря на стремление представить все социальные группы в равной степени, в распределении присутствуют некоторая диспропорция. Так, например, среди добровольцев, записывавших разговоры - 75 женщин и 73 мужчины; данное небольшое отличие становится более заметным, если учесть собеседников - волонтеров. Участников, согласившихся принять участие в сборе устного материала для корпуса, попросили сделать записи разговоров за 2-7 дней (одним их которых обязательно был день записи на участие в проекте); так как день начала работы отличался, составителям удалось собрать материал разговоров в будни и выходные (данная информация не была внесена в итоговый корпус). Так как добровольцы не были ограничены в количестве разговоров, записываемых за один день, количество их собеседников заметно варьировалось, что, в итоге, привело к тому, что небольшая диспропорция в гендерном аспекте увеличилась за счет того, что среди людей, с которыми общались участники проекта, преобладали женщины. Кроме того, их высказывания, как правило, были длиннее и многословнее, чем речь мужчин. Помимо указанных выше записей, в корпус BNC вошел материал, собранный в рамках проекта COLT Teenager Language project (Бергенский университет).
При сборе аудио материала и его обработке (транскрипции и аннотации) использовались те же методы, что и в общем проекте корпуса, но группа волонтеров представляла собой подростков младше 16 лет. Несмотря на то, что итоговый собранный устный материал несколько отличается от изначально запланированного, он представляется достаточно репрезентативным для анализа устной речи англичан. В целом, объем устного разговорного корпуса распределен следующим образом:

1) по возрасту:

Возраст Количество текстов Количество слов Процент от общего количества слов
0-14 26 267005 6.30
15-24 36 665358 15.71
25-34 29 853832 20.16
35-44 22 845153 19.96
45-59 20 963483 22.75
60+ 20 639124 15.09

2) по полу:
Пол Количество текстов Количество слов Процент от общего количества слов
Мужской 73 1742222 41.14
Женский 75 2475488 58.46
Пол не указан 5 16245 0.38

3) по социальному классу:
Класс Количество

текстов

Количество

слов

Процент от общего количества слов
АВ 59 1372933 32.42

C1 36 1104279 26.08
C2 31 1087808 25.69
DE 31 1087808 25.69
Класс не указан 7 37622 0.88

Таким образом, можно утверждать, что в разговорной составляющей Британского национального корпуса BNC различные социальные группы английского общества представлены пропорционально, тем не менее для сравнительного анализа использования лексики (в том числе, абстрактной) данные необходимо нормализовать.

Следующим шагом было выделение из всего разговорного корпуса имен существительных.

Необходимо отметить, что, несмотря на проработанную аннотацию слов, поиск с помощью ПО Xiara, созданного специально для работы с BNC, не позволяет получить всю нужную информацию или отсортировать ее на первоначальном этапе. Поэтому для работы с данными в рамках данного исследования была создана программа, позволяющая выделить имена и свести всю демографическую информацию об авторе каждого предложения и слова.

Для этого прежде всего был произведен поиск по аннотациям частей речи; для обозначения существительных в BNC используются следующие пометы: NN0 (имя существительное с неопределенным или неопределяемым числом), NN1 (имя существительное единственного числа), NN2 (имя существительное множественного числа), NP0 (имя собственное). Из-за невозможности в некоторых случаях однозначно определить часть речи появляются двойные аннотации, например, АЛ0-№№0 (прилагательное или существительное единственного числа), NN1-WB (имя существительное или глагол), NN1-WZ (имя существительное или глагол с окончанием -т§), NN1-WG (имя существительное или глагол, оканчивающийся на ^). При составлении общего подкорпуса имен существительных учитывались как однозначно определенные имена, так и варианты аннотаций.

Другим аспектом отбора были варианты английского языка записанных речей. Несмотря на то, что все добровольцы, участвовавшие в записи, были жителями Англии, среди их собеседников попадались носители других вариантов английского языка и даже других языков (для которых, соответственно, английский не был родным). Так как речь этих двух групп людей не является объектом данной работы, их высказывания не были включены в исследование.

Итогом описанного выше отбора стала сводная таблица имен существительных (см. Приложение I), содержащая, помимо слова и его правого и левого окружения, демографические данные о его авторе - пол, возраст, социальный класс, род деятельности, а также прагмалингвистическую информацию - социальную роль коммуникантов (учитель, друг, сын и т.д.). Всего в таблице было 228063 слов; по классам они распределились следующим образом: АВ - 46616, С1 - 41092, С2 - 48353, ИБ - 29939, класс не указан - 62063.

Перед непосредственной классификацией имен существительных на конкретные и абстрактные из таблицы были удалены:

имена собственные (London, Heathrow Airport);

• паузы хезитации (Pass me the erm bread please);

• фальстарты (Wha well what? Redca redcu redcurrants, redcurrants, cherry, lemon, vanilla, apricot, strawberry, banana.);

• восклицания (Oh god, really?);

• междометия (Doo doo doo doo doo doo La la; Hee hee hee hee. Arghh!);

• неверно аннотированные слова

<< | >>
Источник: Хохлова Наталия Вениаминовна. Абстрактные имена существительные в речи англичан (социолингвистический аспект) .Диссертация на соискание учёной степени кандидата филологических наук. 2015

Еще по теме 1.2 Отбор материала для исследования.:

  1. 4.1 Исследование качественного и количественного состава летучих примесей арбузного спирта-сырца и дистиллята
  2. 3.3. Подготовка реферативно-аналитического материала
  3. Отбор
  4. Общие вопросы Отбор
  5. Дендрохронологические и дсидроклиматологические исследования в России и Советском Союзе
  6. Т. Д. Гордон, М. Д. Раффенспергер ПОСТРОЕНИЕ ДЕРЕВА ЦЕЛЕЙ ДЛЯ ПЛАНИРОВАНИЯ ТЕОРЕТИЧЕСКИХ НАУЧНЫХ ИССЛЕДОВАНИЙ
  7. Гидролитогеохимические исследования
  8. ОТБОР МАТЕРИАЛА
  9. Общие проблемы сбора материала
  10. Технология сбора и классификации языкового материала по теме исследования
  11. Традиционные источники языкового материала
  12. Материал
  13. Глава 3. Корпус текстов как материал для ИССЛЕДОВАНИЯ ВЕРБАЛЬНОЙ ИРОНИИ
  14. Проблема выбора материала исследования для изучения иронии
  15. 3.2. ПРОЯВЛЕНИЯ АВТОРСКОЙ ПОЗИЦИИ В МАТЕРИАЛАХ ИНФОРМАЦИОННЫХ АГЕНТСТВ