1.3 КЛАССИФИКАЦИЯ И ОСНОВНЫЕ СВОЙСТВА ЕДИНИЦ ИНФОРМАЦИИ
Атрибут характеризуется именем н значением.
Именем атрибута называется его условное обозначение в процессах обработки данных.Значением атрибута называется величина, характеризующая некоторое свойство объекта, явлення, процесса в конкретных обстоятельствах. Все допустимые значения атрибута образуют множество, называемое даменом этого атрибута.
33
3-2095 Формально атрибут с именем X представляет собой пару (X,z), где z - элемент Z. Множество Z называется доменом зна- чений (областью определения атрибута X), величина г является значением атрибута X в заданный момент времени.
Определение домена предполагает указание его имени и списка значений. Если число значений в домене невелико, то их список можно указать при объявлении данных в программе. Например, в языке программирования Паскаль это выглядит как
type
day = 1..31;
month = (январь, февраль, март, апрель, май, июнь, июль,
август, сентябрь, октябрь, ноябрь, декабрь);
year = 1900..1999;
{в описании типа атрибутов перечисляются допустимые
значения атрибутов День, Месяц и Год соответственно}
Зачастую невозможно перечислить все элементы домена, поэтому для домена указываются тип и длнна значения. Наиболее употребительны текстовые (символьные), числовые, логические значення, а также значення дат н другие специальные типы значении.
Пример
Домен фамилий - FAM. Перечислить фамилии невозможно, Поэтому ограничим FAM значениями текстового типа длиной до 20 символов. Для языка Паскаль получим: var FAM: strmg[20J;
В домене, определенном таким образом, могут оказаться элементы, заведомо не являющиеся фамилией, например 'MMMW, но такие случая прн определении домена не учитываются.
Для ряда домеиов множество входящих в них значений задается с помощью перечисления допустимых значений.
Еслн в домене необходимо перечислить обозначения объектов из некоторого класса, то разрабатывается классификатор, содержащий условные обозначения (коды) отдельных объектов и классов, к которым эта объекты отнесены. 34Классификация и кодирование
Рассмотрим простейшие системы классификации и кодирования, применяемые для обозначения объектов в базе данных вместо их полных названий.
В первую очередь, если классификация объектов вообще не требуется, производится их нумерация, н кодом каждого объекта служит его порядковый номер. Такая система кодирования называется порядковой.
Если все множество объектов классифицируется по одному признаку, то коды объектов целесообразно разделить на несколько частей (серий) по количеству значений этого признака и в пределах каждой серии использовать последовательные номера.
. Когда используется несколько классификационных признаков и их взаимная подчиненность соответствует выделению классов объектов, подклассов внутри каждого класса и т.д., удобно использовать разрядную систему кодирования.
В качестве примера рассмотрим различные системы кодирования значений атрибута Код студента. Порядковый код студента - это просто его номер в списке всех студентов. Предположим, что необходимо различать студентов-дневников, вечерников и заочников с использованием серийной системы кодирования. Для этого последовательные номери от 1 до 5999 будем использовать при кодировании дневников, номера от 6000 до 7999 - прн кодировании вечерников, от 8000 до 9999 - при кодировании заочников. Если в этих же условиях применить разрядный код, то первый знак кода будет принимать трн значения (1 - дневное отделение, 2 - вечернее, 3 - заочное), а следующие 4 знака отводятся для нумерации студентов каждого отделения. В р>азрядном коде можно учесть больше признаков, например, первый знак - код отделения, второй - код факультета, третий - код курса, четвертый - код группы, пятый и шестой - порядковый номер студента в группе.
Обратите внимание, что, увеличивая число различимых признаков в коде, мы вынуждены увеличивать и длину значения атрибута Код студента.Разрядная система кодирования применяется для кодирования объектов, определяемых несколькими соподчиненными признаками. Кодируемые объекты систематизируются по классификационным признакам на каждой ступени классификации. Каждому признаку классификации отводится определенное число разрядов, в пределах которого кодирование начинается с единицы. Классификационные группировки по младшим признакам кодируются в зависимости от кода более старшего признака.
Если значення нескольких атрибутов определены на одном и том же домене, то такие атрибуты называются ролевыми.
На домене FAM могут быть определены атрибуты с именами: Студент, Преподаватель, Автор. Все это ролевые атрибуты.
Атрибуты Фамилия рабочего н Табельный номер рабочего неролевые, хотя описывают одних и тех же людей.
Домен значений, как правило, не хранится в базе данных как самостоятельный информационный объект. Однако среди ролевых атрибутов домена в базе данных, безусловно, существует атрибуте наиболее полным перечнем значений, и этот атрибут необходимо использовать для контроля достоверности вновь вводимой информации. Например, на предприятии наиболее полный список сотрудников должен присутствовать в базе данных отдела кадров.
Составной единицей информации (СЕИ) называется набор нз атрибутов н, возможно, других СЕИ. Определение СЕИ построено рекурсивно (т. е. в определении понятия участвует само понятие), но противоречия здесь нет, поскольку «другие СЕИ» когда-нибудь будут состоять только из атрибутов (ввиду конечности сообщений). Атрибут и отношение образуют минимально возможный набор единиц информации. На практике удобно использовать большее число единиц информации, как это показано, например, в табл. 1.2. Следует отметить, что БД в целом также является единицей информации. Если рассматривать единицы 36 информации как информационные объекты, то можно говорить об нх свойствах, как это делается в табл.
1.2. В то же время единицы информации - это нефнзические объекты, так как оии не занимают место в пространстве.Свойства единиц информации представлены в табл. 1.2.
Таблица 1.2. Свойства единиц информации Составная единица информации Название свойства Атрибут Представления пользователя Представления проектировщика Документ Показатель Отношение Веерное отношение Имя
Значение Структура * * * + * Операции над именем Пере м єно ва ние, объя в п е н ие СИ н о н и м в Перекоди Вы б о р ка, ко ррект ировка — рование Арифмети-
операции над структурой - Декомпо-
компози-
нормализация, свертка - Проекция, соединение, добавление атрибутов Добавление/ бутов Ограни. Принадлежность домену Фу н цион ал ь ые завис имости Методы организации значений - Последовательный ~ Последовательный, индексный, прямой, цепней, древовидный Множество атрибутов объединяется в одну СЕИ по следующим принципам:
• соответствующие атрибуты описывают один и тот же факт или экономический процесс, • значения атрибутов, входящих в СЕИ, возникают одновременно, связаны логическими или арифметическими соотношениями.
Простейшими характеристиками СЕИ являются имя, структура и значение. Имя СЕИ - это ее условное обозначение в процессах обработки информации. Структурой СЕИ называется вхождение одних единиц информации в состав других единиц информации.
Аппарат СЕИ рассчитан на описание структуры экономических документов. Документом называется материальный носитель информации (обычно бланк бумаги), содержащий оформленные в установленном порядке сообщения и имеющий юридическую силу.
Существует сравнительно много способов описання структуры СЕИ. Для описания, не зависимого от конкретных языков программирования и СУБД, достаточно указы- вать после нмеин СЕИ список имен входящих в нее атрибутов и СЕИ. Будем помещать этот список в круглые скобки, а имена внутри скобок перечислять через запятую. Имя СЕИ может сопровождаться размерностью, т.е. указанием на количество одинаковых ло етруктуре значений этой СЕИ.
Размерность, если она не равна 1, указывается в скобках после имени СЕИ.Рассмотрим в качестве примера документа «Приходный ордер» с сокращенным составом атрибутов (рис.1.5). СЕИ приходного ордера, названная Прих, содержит атрибуты Дата (дата поступления материалов), Пост (код поставщика материалов), Склад и таблицу, также включающую ряд атрибутов. Эта таблица является «другой» СЕИ в составе СЕИ Прих и названа Табл. Обратите внимание, что в экономических документах таблицы не имеют названий, названия всех элементов документа требуются при его машинной обработке.
В СЕИ Табл содержатся атрибуты Ннм (номенклатурный номер материала), Кво-док (количество материала, принятое по товарно-транспортной накладной), Кво-пр (количество материала, принятого на склад), Цена (иена материала), Сумма (результат перемножения значений Кво-пр и Цена). Размерность 3 у СЕИ
Табл соответствует трем строкам в таблице приходного ордера, а размерность 2 у СЕИ Прих определяется наличием двух документов в нашем примере.
Окончательно структура СЕИ приходного ордера имеет вид: Прих(2}. (Дата,Пост .Склад,Табл(3}.(Ннм,Кво-док,Кво-пр, Цена,Сумма}) Дата Пост Склад 01.10.95 1728 02 Ннм Кво-док Кво-пр Цена Сумма 26114 16 16 5,00 80,00 49 712 10 8 8,00 48,00 Прих
Дата Пост Склад 07.10.95 3478 02 Ннм Кво-док Кво-пр Цена Сумма 49 712 12 10 8,00 60,00 72 426 8 8 8,00 64,00 26114 5 5,00 25,00 Рис. 1.5. Бланки документа «Приходный ордер» Определение значения СЕИ можно дать, опираясь на значения единиц информации, входящих в структуру СЕИ. Значение атрибута, входящего в СЕИ, определяется непосредственно. Значение СЕИ, входящей в другую СЕИ, можно определить рекурсивно, однако надо учесть размерность СЕИ. Кроме того, для множества значений СЕИ в составе другой СЕИ необходимо самостоятельное понятие. Назовем собранием СЕИ множество ее значений в составе СЕИ более высокого уровня. Количество значений в собрании СЕИ равно ее размерности.
Значением СЕИ называется набор значений непосредственно входящих в нее атрибутов и набор собраний непосредственно входящих в нее СЕИ.
Одно значение СЕИ приходного ордера содержит по одному значению атрибутов Дата, Пост, Склад и собрание СЕИ Табл. Собрание Табл включает в себя три значения, в каждое значение Табл входит по одному значению атрибутов Ннм, Кво-док, Кво-пр, Цена и Сумма. Всего в нашем примере определены два значення СЕИ Прих.Одно значение СЕИ при хранении ее в памяти ЭВМ часто называется записью.
Все языки программирования содержат средства описання структуры СЕИ.
Пример
Рассмотрим аппарат описания языка Паскаль, в котором структура СЕИ соответствует понятию «тип записи».
Определение типа записи начинается зарезервированным словом record (запись), за ним следует список разделов записи. В конце списка ставится зарезервированное слово end (коней). Каждый раздел записи определяет тип одного или более атрибутов. Так как компоненты записи могут быть любого типа, то допускаются конструкции СЕИ с произвольной структурой:
Date = record Day: [1.311-
Month: (Jan,Feb,Mar, Apr,May,Jun, July,Aug,Sep,Oct,Nov,Dec);
Year: 1900..1999;
end;
type rec - record
tn : 1..1000; {Табельный номер}
fio : string[30]; (Фио рабочего}
dr : Date; (Дата рождения}
nc : 1..9; (Номер цеха}
end;
Var zap: rec;
Переименованием единицы информации называется присвоение ей нового имени, объявление синонима - это установление второго, третьего н т.д. равноценного имени для единицы информации.
Операция над значением атрибута всего одна - это перекодирование, т.е. замена существующего кода значения на новый для всех значений.
Выборка - операция выделения подмножества значений СЕИ, которые удовлетворяют заранее поставленным условиям выборки.
Корректировка означает выполнение одной нз операций: •
добавление нового значения СЕИ, •
исключение существующего значения СЕИ, •
замена некоторого значения СЕИ на новое значение.
Декомпозиция - операция преобразования исходной СЕИ
в несколько СЕИ с различными структурами. Декомпозиция приходного ордера может привести, например, к двум СЕИ
Цены(Ннм,Цена)
Приход(Дата,Пост,Склад,Ним,Кво-док,Кво-пр,Сумма)
Декомпозиция, как и все операции иад структурой СЕИ, одновременно производит преобразование множества значений, в частности Нельзя однозначно определить размерность СЕИ Цены н Приход.
Композиция - операция преобразования нескольких СЕИ с различными структурами в одну СЕИ. Декомпозиция н композиция являются взаимообратиымн операциями, в частности, композиция Цены н Приход дает Прих.
Нормализация - это операция перехода от СЕИ с произвольной структурой к СЕИ с двухуровневой структурой. Одновременно происходит перекомпоновка значений СЕИ.
Нормализация приходного ордера приводит к следующему результату: Дата Пост Склад Ннм Кво-док Кво-пр Цена Сумма 01.10.95 1728 02 26114 16 16 5.00 80.00 01.10.95 1728 02 49712 10 8 6.00 48.00 07.10.95 3476 02 49712 12 10 6.00 60.00 07.10.95 3476 02 72426 8 8 8.00 64.00 07.10.95 3476 02 26114 5 5 5.00 25.00 Свертка - операция преобразования СЕИ с двухуровневой структурой в СЕИ с произвольной многоуровневой структурой. Свертка нормализованного приходного ордера может быть произведена в исходную структуру, а также в другие ненормализованные документы, имеющие экономический смысл, например карточку складского учета (рис.! .6). Склад Ннм Цена 02 26 114 5,00 Пост Дата Кво-док Кво-пр Сумма 1 728 01.10.95 16 16 60,00 3 476 07.10.95 5 5 25,00 Склад Ннм Цена 02 49 712 6,00 Пост Дата Кво-док Кво-пр Сумма 1728 01.10.95 10 6 48,00 3 476 07.10.95 12 10 60,00 Склад Ннм Цена 02 72 426 8,00 Пост Дата Кво-док Кво-пр Сумма 3 476 j 07.10.95 6 64,00 Рис. 1.6. Карточка складского учета
Экономические показатели
При анализе экономических документов ставится задача разделения документа на элементарные осмысленные фрагменты, называемые показателями. Это позволяет установить смысловые взаимосвязи между различными документами, обеспечить одинаковое понимание всеми пользователями применяемых единиц информации и их единое обозначение, использовать полученные результаты для определения структуры базы данных.
Показатель представляет собой полное описание количественного параметра, характеризующего некоторый объект или процесс. Соответствующее описание произвольного свойства (необязательно количественного) называется атомарным фактом и рассматривается в п. 4.1.
Чтобы точнее характеризовать атрибуты, образующие показатель, необходимо отметить существенные различия свойств, которые отображаются атрибутами. Материальные процессы, как известно, имеют качественную характеристику и количественную характеристику. Соответственно и атрибуты должны разделяться на два класса, которые называются «атрибуты-признаки» и «атрибуты-основания».
Атрибут-признак представляет собой информационное отображение качественного свойства некоторого объекта, предмета, процесса, а основание является отображением их количественного свойства.
В состав показателя должны входить одни атрибут- основание и несколько атрибутов-признаков, однозначно характеризующих условия существования основания.
Как единица информации показатель является разновидностью СЕИ. Схематично структура показателя П представляется выражением
П(Р1,Р2 Pk,Q},
где Р1,Р2,...,Рк - атрибуты-признаки, Q - атрибут-основание.
Если представить себе показатель с двумя, например, атрибутами-основаниями, то его можно разделить на две части, в каждой нз которых будет один атрибут-основание н характеризующие его признаки. Полученные части содержат меньше атрибутов и поэтому соответствуют определению показателя.
Таким образом, в показателях отображаются количественные свойства объектов н процессов. Вместе с тем существуют документы, не содержащие атрнбутов-осиоваиий, например анкеты кадрового учета, сведения о структуре подразделений предприятия и т. д. Следовательно, ие вся экономическая информация может быть представлена в форме показателей.
Минимальный набор атрибутов показателя должен содержать: •
атрибуты, отображающие идентификаторы объектов, •
атрибуты, отображающие признак времени, •
атрибут, отображающий некоторое количественное свойство объекта нлн взаимодействия.
Для установления признаков и оснований в конкретных документах можно использовать следующие закономерности: 1.
Если значение атрибута является исходным данным или результатом арифметической операции - это основание. 2.
Если значение текстовое - это признак. 3.
Если атрибут обозначает предмет - это признак. 4.
Если атрибут в некотором показателе является признаком (основанием), - ои будет играть эту роль н в других показателях. 5.
Если показатели описывают сходные процессы - их позначные части совпадают. 6.
Если основание показателя вычисляется по значениям других оснований, то набор признаков такого показателя есть объединение признаков, связанных с этими основаниями.
Критерием качества создания базы данных может служить минимальная избыточность хранимой информации. Обычно минимальная избыточность выражается принципом: каждое сообщение хранится в БД один раз. Соблюдение этого принципа дает ряд преимуществ: •
сокращается объем памяти ЭВМ, требуемой для хранения базы данных, •
сокращается трудоемкость ввода данных в ЭВМ и упрощаются проблемы контроля достоверности вводимой информации, •
упрощаются алгоритмы корректировки данных, так как корректировка сообщения может быть проведена за одно обращение к базе данных.
Использование аппарата экономических показателей позволяет создать структуру БД с минимальной избыточностью, если сначала расчленить все сведения, циркулирующие в ЭИС, на показатели, а потом объединить атрибуты родственных показателей по принципу: в один файл включается группа экономических показателей с одинаковым составом атрибутов- признаков.
Пример
АТРИБУТЫ ДОКУМЕНТА «ПРИХОДНЫЙ ОРДЕР». Дата Склад
Пост - код
Кмат - код материала Цена
Кво-док - количество Сумма
по документу
Кво-пр - количество принято поставщика
Атрибутами-основаниями являются Кво-док, Кво-пр, Цена и Сумма, которые представляют количественную характеристику процесса оприходования материала на складе. Можно сделать вывод о наличии в нашем документе четырех показателей, по одному на каждое основание. Выяснение структуры каждого показателя связано с определением атрибутов-признаков для соответствующих оснований.
У основания Кво-док необходимыми признаками будут Кмат (имеется в виду количество материала), Склад и Пост (склад принимает материалы от конкретного поставщика) и Дата (необходимо указание времени). В результате структура показатеия (назовем его П1) принимает вид:
П1 ( Кмат, Склад, Пост, Дата, Кво-док )
При рассмотрении показателя П2 с основанием Кво-пр можно использовать правило 5 (основания Кво-док и Кво-пр описывают сходные процессы), после чего
П2 ( Кмат, Склад, Пост, Дата, Кво-пр ) Для показателя ПЗ с основанием Цена необходимо установить, зависят ли цены материалов от предприятия-поставщика или они постоянны. Если допустить последнее, то получаем ПЗ ( Кмат, Цена)
Сумма в показателе П4 является результатом вычисления: Сумма = Кво-пр * Цена, поэтому согласно правилу б признаки показателя П4 получаются в результате объединения признаков из показателей П2 и ПЗ, т.е.
П4 ( Кмат, Склад, Пост, Дата, Сумма)
Указанные показатели образуют в базе данных 2 файла
F1 с атрибутами Кмат, Цена
F2 с атрибутами Кмат, Склад, Пост, Дата, Кво-док, Кво-пр, Сумма.
Одиа из причин выделения показателей в особую разновидность единиц информации заключается в том, что показатель является минимальной группой атрибутов, сохраняющей информативность (осмысленность) и поэтому достаточной для образования самостоятельного документа.
Для показателей, описывающих экономические процессы (взаимодействие объектов), можно классифицировать их составные части: •
формальную характеристику, указывающую на алгоритм получения атрибута-основания в показателе, •
перечень объектов, участвующих в процессе, •
название процесса, •
единицу измерения атрибута-основания, •
определение момента времени или периода времени, •
название функции управления, •
название экономической системы, в которой происходит описываемый процесс.
Указание всех названных частей необходимо для точного обозначения показателя. Атрибуты-признаки показателя должны отображать в обязательном порядке лишь перечень объектов, участвующих в процессе, и период (момент) времени. Очень часто включается признак, отмечающий единицу измерения, а остальные характеристики показателя обычно указываются в его названии, а не в хранимых значениях.
Показатель удобно применять как обобщающую единицу измерения объема данных.
Существует аналогия между экономическими показателями и переменными с индексами, которые рассматриваются, например, в линейной алгебре. Так, показатель ПЗ(Кмат, Цена) соответствует величине C(i), где С - цеиа материала с і-м кодом материала Кмат.
Переменная С соответствует атрибуту-основанию Цена, индекс і - атрибуту-признаку Кмат. В общем случае переменная всегда отображает атрибут-основание, а индексы этой переменной - значения соответствующих атрибутов-признаков показателя.
Естественное отличие состоит в том, что индекс і переменной С обычно изменяется от I до некоторого фиксированного значения, а номенклатурные номера материалов (и вообще любые значения атрибутов-признаков) могут кодироваться многими способами, необязательно порядковыми кодами.
Остальные показатели приходного ордера соответствуют таким переменным с индексами, как
K(i,j,m, п)для ПІ P(i,j, m, п) для П2 S (i,j, m, п)для П4 где:
j - номер склада, m - код поставщика, n - дата.
Расчетные соотношения для показателей соответствуют выражениям для переменных с индексами, например, S (i, j, m, n) = Р (і, j, m, n) * С (і).
Закономерности, установленные в математике для арифметических операций над переменными с индексами, естественно, трансформируются в правила арифметических действий над показателями. 1.
Рассмотрим показатель с числовым значением х и множеством индексов X и показатель с числовым значением у и множеством индексов Y. Пусть @ обозначает одно из четырех арифметических действий. Тогда множество индексов Z у величины z=x@y равно объединению множеств X и Y. Если множества X и Y содержат общие индексы, то необходимым условием корректности вычисления z является совпадение значений таких индексов у переменных х и у. 2.
Для очень распространенных операций суммирования н умножения заимствуются правила линейной алгебры. В частности: •
если суммирование производится по двум различным индексам, каждый нз которых меняется независимо от другого, то порядок суммирования безразличен, •
если пределы изменения одного индекса зависят от другого индекса суммирования, то при перемене порядка суммирования пределы изменения каждого из индексов становятся другими.
Если индексы суммирования не указаны, то суммирование производится по всем индексам, которые под знаком суммы встречаются два раза. Индексы, по которым ведется суммирование, называются заглушёнными, индексы, по которым суммирование не ведется, называются свободными.
Представление экономической информации в форме показателей не является универсальным, так как существуют значительные массивы осмысленной экономической информации, не содержащие атрибутов-оснований (например, описания структуры экономических объектов - подразделений предприятия и т.п.).
Еще по теме 1.3 КЛАССИФИКАЦИЯ И ОСНОВНЫЕ СВОЙСТВА ЕДИНИЦ ИНФОРМАЦИИ:
- 1.3 КЛАССИФИКАЦИЯ И ОСНОВНЫЕ СВОЙСТВА ЕДИНИЦ ИНФОРМАЦИИ
- 4.3 ТЕЗАУРУСЫ ЭКОНОМИЧЕСКОЙ ИНФОРМАЦИИ
- 1.1 Термин - единица языкового и специального знания
- ДОКУМЕНТ КАК ОСНОВА ФУНКЦИОНИРОВАНИЯ БИБЛИОТЕКИ И ИНФОРМАЦИЯ
- СУЩНОСТЬ КЛАССИФИКАЦИИ И ТИПОЛОГИЗАЦИИ БИБЛИОТЕК
- Тема 7. Проявление свойств личности в социально-психологических условиях валютног
- Тема 3 АНТРОПОГЕНЕЗ: ОСНОВНЫЕ ТЕОРИИ
- ОСНОВНЫЕ ТИПЫ ПРАВОВОГО РЕГУЛИРОВАНИЯ
- Очерк второй К ХАРАКТЕРИСТИКЕ ОСНОВНЫХ ВИДОВ ОБЩНОСТЕЙ ЛЮДЕЙ
- Очерк четвертый ОСНОВНЫЕ ФОРМЫ ЭТНОСА. ИЕРАРХИЯ ЭТНИЧЕСКИХ ОБЩНОСТЕЙ
- ОСНОВНЫЕ ЗАКОНОМЕРНОСТИ ТЕРРИТОРИАЛЬНОЙ ОРГАНИЗАЦИИ СЕЛЬСКОГО ХОЗЯЙСТВА
- Основные понятия и определения в природоохранном обустройстве территорий
- ОСНОВНЫЕ ПОЛОЖЕНИЯ