<<
>>

3.1 Использование корпуса в исследованиях

С развитием компьютерных технологий в 1960-1970-е гг. все области научного знания, не исключая лингвистику, стали обращаться к ним для более точного и более полного охвата исследуемого материала.

Одним из инструментов компьютерной лингвистики (впоследствии выделившимся в самостоятельный раздел языкознания) стала корпусная лингвистика, занимающаяся разработкой, составлением и анализом корпусов.

Существует несколько трактовок понятия «корпус». Так, Д. Байбер определяет его как «большую структурированную коллекцию текстов естественного языка» (Biber et al 1998, 12). Однако данное определение не охватывает целей создания корпусов и особенностей их формирования. Несмотря на то, что сбор корпуса возможен и без компьютерных технологий, такая работа является крайне трудоемкой и практически не используется на современном этапе. Сбор данных для корпусов малого объема возможен и вручную, но, как правило, необходимость такой процедуры оправдана, если исследуется небольшая и специфичная группа носителей языка, чьи тексты (устные или письменные) было бы сложно выделить в общей массе корпуса. Говоря о целях создания корпуса, следует отметить, что он создается как объективная база данных какого- либо языка , т.е. его материал полно и сбалансировано представляет язык или его разновидность. В главе «Corpus and Text - Basic Principles» книги «Developing

Linguistic Corpora: a Guide to Good Practice» (под редакцией М. Винна) Дж. Синклэр дает следующее определение: «Корпус — это собрание отрывков текста в электронном формате, отобранных по определенным критериям и представляющих, насколько это возможно, язык или разновидность языка, представляя собой данные для лингвистических исследований» (Sinclair 2005). Данное определение также оставляет возможности для различных толкований: «электронный формат» может относиться к любому тексту, набранному в текстовом редакторе, тогда как корпус подразумевает не только хранение в электронном виде, но и аннотирование единиц текста для последующего анализа.

Исходя из вышесказанного, наиболее точным можно признать определение корпуса как «совокупность (1) машиносчитываемых (2) аутентичных текстов (в том числе транскрипты разговоров), (3) отобранных и (4) представительных для определенного языка или его разновидности» (McEnery, Xiao, Tono 2006: 5). Представительность корпуса предполагает, что совокупность собранных текстов сбалансирована в отношении жанров и функциональных стилей, обладает достаточным размером и выборкой и может служить основой для статистически достоверных исследований языковых явлений. При этом подход составителей может отличаться. Тогда как одни предлагают выверять соотношение текстов разных носителей языка статистически (например, если мужское население страны составляет 45%, то и доля текстов от мужчин должен составлять 46%), другие считают, что подбор текстов не должен быть ограничен и должен включать самые разнообразные тексты.

Прежде всего современные корпуса используются в лексикографии — на их базе создаются новые словари и изменяются, дополняются уже существующие. Первым словарем на базе электронного корпуса стал American Heritage Dictionary, основанный на Brown Corpus Г. Кучеры и Н. Френсиса. Использование миллионной базы слов позволило создать словарь, представляющий не только прескриптивные элементы, но и дескриптивные, примеры действительного использования языка. Вслед за Брауновским корпусом, в основу словарей были положены Bank of English, British National Corpus, и созданы корпусы вариантов английского языка: LOB (London-Olso-Bergen, британский английский 1960-х), Кольхапур (индийский английский), Веллингтон (новозеландский английский), Австралийский корпус английского языка (австралийский английский), Фраун корпус (американский английский начала 1990-х г.), FLOB Corpus (британский английский 1990-х г.).

Другой отраслью лингвистики, которая активно стала использовать создаваемые корпуса, является дидактика. С одной стороны, начали создаваться корпусы, в основу которых легли эссе изучающих английский язык в различных странах, что позволило систематично описать наиболее распространенные ошибки и разработать словари и учебные пособия по английскому языку как иностранному с рекомендациями для носителей того или иного языка.

С другой, все большее распространение получает применение корпуса в обучении, так как при обращении к корпусу в поисках ответов на вопросы преподавателя обучаемый «совершает открытия», также он лучше запоминает найденную им информацию и встраивает ее в систему уже приобретенных знаний. Кроме того, изменяется роль педагога — от активной позиции, когда он сообщает всю информацию ученикам/студентам и проверяет, как эта информация усваивается, преподаватель уходит к пассивной роли информатора и ждет, пока обучаемый не найдет ответ на вопрос самостоятельно.

В целом, стоит отметить, что, несмотря на большое количество корпусов и быстрое развитие корпусной лингвистики, исследования, использовавшие их базу, начали появляться только в 1980-х. Одной из причин является ограниченный доступ к корпусам на начальном этапе их развития. С развитием технологий и расширением доступа к ним все больше лингвистов могли самостоятельно использовать собранные данные. Отчасти это обусловлено и тем, что в 1960-70-е гг. многие лингвисты ушли от эмпирических исследований к более философским гипотезам, полагая, что язык — это ментальный конструкт и анализ корпуса языка не сможет описать языковые процессы и языковую компетенцию. Подобный подход привел к тому, что корпус как база для исследований практически не использовался до 1980-х годов, когда появились частотный анализ лексики и анализ категорий частей речи Г. Кучеры и Н. Френсиса на основе Брауновского корпуса (1982), аналогичный анализ корпуса LOB Йоханссона и Хофланда (1989), исследование употребления пассива (Гренджер, 1983), постмодификаторов (де Хаан, 1989) и анализ стилей речи (Байбер, 1989).

За последние 20 лет исследования корпуса были проведены в целом ряде разнообразных направлений. Например, широко корпусы используются в грамматических и лексикологических работах. Корме того, корпус значительно облегчил создание частотных списков и списков ключевых слов, помогает в исследованиях коллокаций и коллигаций, применяется при установлении плагиата и для решения задач судебно-лингвистической экспертизы.

В связи с новыми исследованиями, использовавшими корпус, возник вопрос о месте корпусной лингвистики в системе наук и научного знания. Часто ее определяют как «раздел прикладной лингвистики», «раздел языкознания» или «раздел компьютерной лингвистики», т.е., даже считая ее самостоятельной дисциплиной, исследователи по-разному рассматривают положение корпусной лингвистики в системе языкознания. С другой стороны, корпусную лингвистику можно считать методологией (Mukherjee 2004, 116-117), так как ее данными и методами пользуются лингвисты, занимающиеся исследованиями в других, часто не смежных областях прикладной лингвистики (например, социолингвистики, психолингвистики, грамматики и других). Чтобы разграничить разные формы применения корпуса в исследованиях, выделяют несколько подходов. Ряд работ использует корпус для подтверждения или иллюстрации ранее выдвинутых гипотез (corpus-based approach). Другими словами, корпус помогает проверить информацию, полученную в ходе исследования, или собрать данные, подтверждающие теоретическое предположение. Кроме того, в некоторых случаях корпус используется исключительно как источник примеров. Некоторые исследователи (например, J. Mukherjee, М. Копотев) выделяют последние как отдельный тип исследований — corpus-informed approach. Другие работы полностью основаны на данных корпуса; такой подход называется corpus-driven. В отличие от вышеупомянутых подходов, этот — индуктивный, выводы исследования — это результат анализа корпуса, а не проверка ранее выдвинутого предположения исследователя (Tognini-Bonelli 2001; Friginal, Hardy 2014).

Большое количество корпусных исследований, проведенных в различных областях лингвистики в последние 20 лет, привело к необходимости систематизировать накопленный опыт и разработать единый подход. Так появился ряд фундаментальных работ, рассматривающих связь корпусной лингвистики с другими дисциплинами: Corpus Studies of Lexical Semantics (Stubbs 2001), Corpora in Applied Linguistics (Hunston 2002), Corpus Stylistics (Semino and Short 2004), Introducing Corpora in Translation Studies (Olohan 2004), Using Corpora in Discourse Analysis (Baker 2006), Corpora in Cognitive Linguistics (Gries 2006), Corpus-based Approaches to Metaphor and Metonymy (Stefanowitsch and Gries 2006), Corpus Linguistics Beyond the Word: Corpus Research from Phrase to Discourse (Fitzpatrick 2007), Sociolinguistics and Corpus Linguistics (Baker, 2010).

Фактически, развитие корпусной лингвистики дало возможность практически всем разделам языкознания (кроме, возможно, фонологических исследований) получить доступ к большому объему достоверной информации. В 2005 году в статье «My Version of Corpus Linguistics» бывший тогда редактором издания International Journal of Corpus Linguistics Вольфганг Тойберт подчеркнул, что корпус стал источником информации по умолчанию для всех лингвистических исследований, так как, только прибегая к существующей базе языка, ученые могут достоверно описать вариативность и норму, а также изменения языка. Таким образом, особенно важным использование корпуса оказывается в исследованиях, рассматривающих язык как социальное явление. Рассмотрим, как корпусы современного английского языка используются в социолингвистических исследованиях.

<< | >>
Источник: Хохлова Наталия Вениаминовна. Абстрактные имена существительные в речи англичан (социолингвистический аспект) .Диссертация на соискание учёной степени кандидата филологических наук. 2015

Еще по теме 3.1 Использование корпуса в исследованиях:

  1. 6. Использование тезиса о заговоре церковной ортодоксиеи и светскими правыми, 1848-1917
  2. Хронологические рамки исследования.
  3. 2.5. Понятие эволюционного цикла и его использование в историческом прогнозировании
  4. Родовые архивы местников и их использование в тяжбах и для пополнения Разрядного архива
  5. 1.6. «Здание Королевы» — новый инженерный корпус Университета Де Монфора, Лестер, Соединенное Королевство
  6. В. X. Клингмен ПРОГНОЗИРОВАНИЕ РЕЗУЛЬТАТОВ НАУЧНЫХ ИССЛЕДОВАНИЙ И ПОИСКОВЫХ РАЗРАБОТОК
  7. ИСПОЛЬЗОВАНИЕ ВАГРАНОКДЛЯ УТИЛИЗАЦИИ ЦИНКОСОДЕРЖАЩИХ ПЫЛЕЙ
  8. Лингвостатистический метод и его методики
  9. Инновационные источники языкового материала
  10. Технология формирования методологии и методики исследования
  11. Глава 3. Корпус текстов как материал для ИССЛЕДОВАНИЯ ВЕРБАЛЬНОЙ ИРОНИИ
  12. Проблема выбора материала исследования для изучения иронии
  13. Методы, источники и база исследования.
  14. § 1.3. Модель профессиональной подготовки студентов архитектурно-строительных направлений в процессе использования интерактивных электронных образовательных ресурсов