Главная · Программы · Реляционная модель данных. Базовые понятия, структура реляционных баз данных

Реляционная модель данных. Базовые понятия, структура реляционных баз данных

логической модели реляционной базы данных в объекты реляционной базы данных. Для решения этой задачи проектировщику базы данных необходимо знать: а) какими объектами располагает реляционная база данных в принципе; б) какие объекты поддерживает конкретная СУБД, которая выбрана для реализации базы данных.

Таким образом, мы предполагаем, что решение о выборе СУБД уже принято руководителем ИТ-проекта, и согласовано с заказчиком базы данных, т.е. СУБД задана. Проектировщик базы данных должен ознакомиться с документацией, в которой описан диалект SQL, поддерживаемый выбранной СУБД. В настоящей лекции предполагается, что была выбрана СУБД Oracle 9i, хотя подавляющая часть материала охватывает объекты в любой промышленной реляционной СУБД.

Замечание. О выборе СУБД. Выбор СУБД относится к многокритериальной задаче выбора и в настоящем курсе не рассматривается. Следует помнить о том, что СУБД обычно поддерживает только одну модель данных: реляционную, иерархическую, сетевую, многомерную, объектно-ориентированную, объектно-реляционную. Исключение составляют небольшое число СУБД. Например, ADABAS, Software AG (сетевая и реляционная модели), или Oracle 9i, Oracle Inc. (реляционная и объектно-реляционная модели). Обычно при выборе СУБД при всех прочих равных возможностях стараются создать базу данных на СУБД, претендующей на промышленный стандарт.

Иерархия объектов реляционной базы данных прописана в стандартах по SQL, в частности, в стандарте SQL-92 , на который мы будем ориентироваться при изложении материала настоящей лекции. Этот стандарт поддерживается практически всеми современными СУБД, вплоть до настольных. Иерархия объектов реляционной базы данных показана на рисунке ниже.

На самом нижнем уровне находятся наименьшие объекты, с которыми работает реляционная база данных, - столбцы (колонки) и строки. Они, в свою очередь, группируются в таблицы и представления.

Замечание. В контексте лекции атрибуты, колонки, столбцы и поля считаются синонимами. То же относится и к терминам "строка", "запись" и "кортеж".

Таблицы и представления, которые представляют физическое отражение логической структуры базы данных, собираются в схему. Несколько схем собираются в каталоги, которые затем могут быть сгруппированы в кластеры. Следует отметить, что ни одна из групп объектов стандарта SQL-92 не связана со структурами физического хранения информации в памяти компьютеров.


Рис. 8.1.

Помимо указанных на рисунке объектов, в реляционной базе данных могут быть созданы индексы, триггеры, события, хранимые команды, хранимые процедуры и ряд других. Теперь перейдем к определению объектов реляционной базы данных.

Основные объекты реляционной базы данных

Кластеры, каталоги и схемы не являются обязательными элементами стандарта и, следовательно, программной среды реляционных баз данных.

Под кластером понимается группа каталогов, к которым можно обращаться через одно соединение с сервером базы данных (программная компонента СУБД).

На практике процедура создания каталога определяется реализацией СУБД на конкретной операционной платформе. Под каталогом понимается группа схем. На практике каталог часто ассоциируется с физической базой данных как набором физических файлов операционной системы, которые идентифицируются ее именем.

Для проектировщика базы данных схема - это общее логическое представление отношений законченной базы данных. С точки зрения SQL, схема - это контейнер для таблиц, представлений и других структурных элементов реляционной базы данных. Принцип размещения элементов базы данных в каждой схеме полностью определяется проектировщиком базы данных.

Для создания таблиц и представлений наличие схемы не обязательно. Если у вас планируется инсталляция только одной логической базы данных, то ясно, что можно обойтись и без схемы. Но если планируется, что одна и та же СУБД будет использоваться для поддержки нескольких баз данных, то надлежащая организация объектов баз данных в схемы может значительно облегчить сопровождение этих баз данных. На практике схема часто ассоциируется с объектами определенного пользователя физической базы данных.

Далее объекты реляционной базы данных будут вводиться в контексте реляционной СУБД Oracle 9i. Такой подход принят потому, что проектирование физической модели реляционной базы данных выполняется для конкретной среды ее реализации.

В Oracle 9i термин схема (Schema) используется для описания всех объектов базы данных, которые созданы некоторым пользователем. Для каждого нового пользователя автоматически создается новая схема.

К числу основных объектов реляционных баз данных относятся таблица, представление и пользователь.

Таблица (Table) является базовой структурой реляционной базы данных. Она представляет собой единицу хранения данных - отношение. Таблица идентифицируется в базе данных своим уникальным именем, которое включает в себя идентификацию пользователя. Таблица может быть пустой или состоять из набора строк.

Представление (View) - это поименованная динамически поддерживаемая СУБД выборка из одной или нескольких таблиц базы данных. Оператор выборки ограничивает видимые пользователем данные. Обычно СУБД гарантирует актуальность представления - его формирование производится каждый раз, когда представление используется. Иногда представления называют виртуальными таблицами .

Пользователь (User) - это объект, обладающий возможностью создавать или использовать другие объекты базы данных и запрашивать выполнение функций СУБД , таких как организация сеанса работы, изменение состояние базы данных и т. д.

Для упрощения идентификации и именования объектов в базе данных поддерживается такие объекты, как синоним, последовательность и .

Синоним ( Synonym ) - это альтернативное имя объекта (псевдоним) реляционной базы данных, которое позволяет иметь доступ к данному объекту. Синоним может быть общим и частным. Общий синоним позволяет всем пользователям базы данных обращаться к соответствующему объекту по его псевдониму. Синоним позволяет скрыть от конечных пользователей полную квалификацию объекта в базе данных.

Последовательность (Sequence) - это объект базы данных, который позволяет генерировать последовательность уникальных чисел (номеров) в условиях многопользовательского асинхронного доступа. Обычно элементы последовательности используются для уникальной нумерации элементов таблиц (строк) в операциях модификации данных.

Определенные пользователем типы данных ( User-defined data types ) представляют собой определенные пользователем типы атрибутов (домены), которые отличаются от поддерживаемых (встроенных) СУБД типов. Они определяются на основе встроенных типов. Определенные пользователем типы данных образуют ту часть среды СУБД, которая организована в соответствии с объектно-ориентированной парадигмой.

Для обеспечения эффективного доступа к данным в реляционных СУБД поддерживаются ряд других объектов: индекс, табличная область, кластер, секция.

Индекс (Index) - это объект базы данных, создаваемый для повышения производительности выборки данных и контроля уникальности первичного ключа (если он задан для таблицы). Полностью индексные таблицы (index-organized tables) исполняют роль таблицы и индекса одновременно.

Табличное пространство или область ( Tablespace ) - это именованная часть базы данных, используемая для распределения памяти для таблиц и индексов. В Oracle 9i - это логическое имя физических файлов операционной системы. Все объекты базы данных, в которых хранятся данные, соответствуют некоторым табличным пространствам . Большинство объектов базы данных, в которых данные не хранятся, находятся в словаре данных, расположенном в табличном пространстве SYSTEM .

Кластер (Cluster) - это объект, задающий способ совместного хранения данных в нескольких или одной таблице. Одним из критериев использования кластера является наличие общих ключевых полей в нескольких таблицах, которые используются в одной и той же команде SQL. Обычно кластеризованные столбцы или таблицы хранятся в базе данных в виде таблиц хэширования (т.е. специальным образом).

Секция (Partition) - это объект базы данных, который позволяет представить объект с данными в виде совокупности подобъектов, отнесенных к различным табличным пространствам . Таким образом, секционирование позволяет распределять очень большие таблицы на нескольких жестких дисках.

Для обработки данных специальным образом или для реализации поддержки ссылочной целостности базы данных используются объекты: хранимая процедура, функция, команда, триггер, таймер и пакет (Oracle). С помощью этих объектов базы данных можно выполнять так называемую построчную обработку (record processing) данных. С точки зрения приложений баз данных построчная обработка - это последовательная выборка данных по одной строке, ее обработка и переход к обработке следующей строки.

Данные объекты реляционной базы данных представляют собой программы, т.е. исполняемый код. Этого код обычно называют серверным кодом (server-side code) , поскольку он выполняется компьютером, на котором установлено ядро реляционной СУБД. Планирование и разработка такого кода является одной из задач проектировщика реляционной базы данных.

Хранимая процедура ( Stored procedure ) - это объект базы данных, представляющий поименованный набор команд SQL и/или операторов специализированных языков обработки программирования базы данных (например, SQLWindows или PL/SQL).

Функция (Function) - это объект базы данных, представляющий поименованный набор команд SQL и/или операторов специализированных языков обработки программирования базы данных, который при выполнении возвращает значение - результат вычислений.

Команда (Command) - это поименованный оператор SQL, который заранее откомпилирован и сохраняется в базе данных. Скорость обработки команды выше, чем у соответствующего ему оператора SQL, т.к. при этом не выполняются фазы синтаксического разбора и компиляции.

Триггер (Trigger) - это объект базы данных, который представляет собой специальную хранимую процедуру. Эта процедура запускается автоматически, когда происходит связанное с триггером событие (например, до вставки строки в таблицу).

Таймер (Timer) отличается от триггера тем, что запускающим событием для хранимой процедуры является событие таймера.

Пакет (Package) - это объект базы данных, который состоит из поименованного структурированного набора переменных, процедур и функций.

В распределенных реляционных СУБД имеются специальные объекты: снимок и связь базы данных.

Снимок (Snapshop) - локальная копия таблицы удаленной базы данных, которая используется для тиражирования (репликации) таблицы или результата запроса. Снимки могут быть модифицируемыми или предназначенными только для чтения.

Связь базы данных (Database Link) или связь с удаленной базой данных - это объект базы данных, который позволяет обратиться к объектам удаленной базы данных. Имя связи базы данных, грубо говоря, можно представить как ссылку на параметры доступа к удаленной базы данных.

Для эффективного управления разграничением доступа к данным в Oracle поддерживает объект роль.

Роль (Role) - объект базы данных, представляющий собой поименованную совокупность привилегий, которые могут назначаться пользователям, категориям пользователей или другим ролям.

Введение

Начавшийся XXI век специалисты называют веком компьютерных технологий. Человечество вступает в принципиально новую информационную эпоху. Меняются все слагаемые образа жизни людей. Уровень информации становится одной из характеристик уровня развития государства.

Многие развивающиеся страны осознали на должном уровне те преимущества, которые нет с собой распространение и развитие информационно-коммуникационных технологий. И не у кого не возникает сомнений тот факт, что движение к информационному обществу, это своего рода путь, который направлен в будущее человеческой цивилизации.

На основании реляционной модели база данных представляет собой определенную совокупность таблиц, над которыми выполняются операции, которые формулируются в терминах реляционной алгебры и реляционного исчисления.

В реляционной модели операции относительно объектов базы данных обладают теоретико-множественным характером являясь ядром любой базы данных. Модель представляет множество структурных данных, ограничений целостности и операций манипулирования данными.

Базовые понятия реляционной модели данных

Основными понятиями свойственными для реляционных данных считаются тип данных, домен, атрибут, кортеж, первичный ключ отношение. Первоначально отметим смысл этих понятия на примере отношения «СОТРУДНИКИ», содержащего информацию относительно сотрудников некоторой организации

Понятие тип данных соизмерим в реляционной модели данных с понятием типа данных в языках программирования. В современных реляционных базах данных имеет место хранение символьных числовых данных, битовых строк, а также специальных "темпоральных" данных, которые достаточно активно развиваются в процессе подхода к расширению возможностей реляционных систем.

Понятие домена обладает определенной спецификой для баз данных, хотя и обладают некоторой антологией с одтипами относительно некоторых языков программирования. Вообще домен определяется заданием некоторого базового типа, к которому имеет отношение элемент домена и произвольного логического выражения, нашедшего применение в элементе типа данных. В том случае, когда вычисление этого логического выражения представляет результат "истина", элемент является элементом домена.

Более правильной трактовкой понятия домена считается само понимание домена, как одного из допустимых потенциальных множеств значений данного типа.

Например, домен "Имена" в нашем случае на базовом типе срок символов он определен, но число его значений войдут только те сроки, которые способны изображать имя) такие сроки не могут начинаться с мягкого знака). Также необходимо отметить семантическую нагрузку понятия домена: только в том случае данные будут сравнимыми, когда будут иметь отношение к домену, но только одному

В нашем случае значения доменов "Номера пропусков" и "Номера групп", которые имеют отношение к типу целых числе, не может быть сравнимым. Отметим, что в некоторых случаях в реляционных СУБД само понятие «домена» не находит применение, т.к. уже поддерживается в Oracle V.7.

Схема отношения представляет собой именное множество пар: что включает: имя атрибута, тип, но только в том случае, когда понятие домена не поддерживается. Степень «артность» представляет собой схемы отношения - это определенная мощность это множества.

При этом отношения «Сотрудники» будет равна четырем и считаться 4-арным. А если все атрибуты одного отношения определены на относительно разных доменах, использовать осмысленно для именования атрибутов имена соответствующих доменов, не забывая при этом, о том, что это считается только лишь одним из удобных способом именования и не предоставляет возможность для устранения различий относительно понятия домена и атрибута. Схема базы данных - это определенный набор схем отношений.

Кортеж, который соответствует данной схеме отношения представляет собой множество пар, которое находит отражение в вхождении каждого имени атрибута, принадлежащего схеме отношения.

"Значение" считается допустимым значением домена данного атрибута, в том случае, когда понятие домена не поддерживается. В результате степень кортежа, т.е. число определенных элементов совпадает с степенью соответствующей схемы отношения

Кортеж - это набор именных значений заданного типа.

Отношение - это большое количество кортежей, которые соответствуют одной схеме отношения. В действительности, понятие схемы отношения ближе к понятию структурного типа данных в языках программирования было заголовком, а отношение как набор кортежей было телом отношения. Поэтому было бы логично разрешать определять схему отношения отдельно, а в последствии одно или несколько отношений данной схемой, но реляционных базах данных это не принято.

Имя схемы отношения относительно таких баз данных в большинстве случаев совпадает с именем соответствующего отношения-экземпляра. В классических реляционных базах данных после определенной схемы базы данных только отношения-экземпляры изменяются. Могут в них появляться новые и удаляться или изменяться существующие кортежи. Но в тоже время во многих реализациях находит место изменение схемы базы данных: определение новых и изменение уже существующих схем отношения, что принято называть эволюцией схемы базы данных.

Обычным представлением отношения считается таблица, заголовком которой считается схема отношения, а строками - кортежи отношения-экземпляра, в этом случае имена атрибутов именуют столбцами этой таблицы. В связи с этим иногда говорят " столбец таблицы", подразумевая " атрибут отношения". Как видно, основные структурные понятия реляционной модели данных (если не считать понятия домена) имеют очень простую интуитивную интерпретацию, хотя в теории реляционных БД все они определяются абсолютно формально и точно.

Общая характеристика реляционной модели данных

Основы реляционной модели данных были впервые изложены в статье Е.Кодда в 1970 г. Эта работа послужила стимулом для большого количества статей и книг, в которых реляционная модель получила дальнейшее развитие. Наиболее распространенная трактовка реляционной модели данных принадлежит К.Дейту . Согласно Дейту, реляционная модель состоит из трех частей:


  • Структурной части.

  • Целостной части.

  • Манипуляционной части.
Структурная часть описывает, какие объекты рассматриваются реляционной моделью. Постулируется, что единственной структурой данных, используемой в реляционной модели, являются нормализованные n-арные отношения.

Целостная часть описывает ограничения специального вида, которые должны выполняться для любых отношений в любых реляционных базах данных. Это целостность сущностей и целостность внешних ключей .

Манипуляционная часть описывает два эквивалентных способа манипулирования реляционными данными - реляционную алгебру и реляционное исчисление .

В данной главе рассматривается структурная часть реляционной модели.

^ Типы данных

Любые данные, используемые в программировании, имеют свои типы данных.

Важно! Реляционная модель требует, чтобы типы используемых данных были простыми .

Для уточнения этого утверждения рассмотрим, какие вообще типы данных обычно рассматриваются в программировании. Как правило, типы данных делятся на три группы:


  • Простые типы данных.

  • Структурированные типы данных.

  • Ссылочные типы данных.
Простые типы данных

Простые, или атомарные, типы данных не обладают внутренней структурой. Данные такого типа называют скалярами . К простым типам данных относятся следующие типы:


  • Логический.

  • Строковый.

  • Численный.
Различные языки программирования могут расширять и уточнять этот список, добавляя такие типы как:

  • Целый.

  • Вещественный.

  • Дата.

  • Время.

  • Денежный.

  • Перечислимый.

  • Интервальный.

  • И т.д.…
Конечно, понятие атомарности довольно относительно. Так, строковый тип данных можно рассматривать как одномерный массив символов, а целый тип данных - как набор битов. Важно лишь то, что при переходе на такой низкий уровень теряется семантика (смысл) данных . Если строку, выражающую, например, фамилию сотрудника, разложить в массив символов, то при этом теряется смысл такой строки как единого целого.

^

Структурированные типы данных предназначены для задания сложных структур данных. Структурированные типы данных конструируются из составляющих элементов, называемых компонентами, которые, в свою очередь, могут обладать структурой. В качестве структурированных типов данных можно привести следующие типы данных:


  • Массивы

  • Записи (Структуры)
С математической точки зрения массив представляет собой функцию с конечной областью определения. Например, рассмотрим конечное множество натуральных чисел

Называемое множеством индексов. Отображение

Из множества во множество вещественных чисел задает одномерный вещественный массив. Значение этой функции для некоторого значения индекса называется элементом массива, соответствующим . Аналогично можно задавать многомерные массивы.

Запись (или структура) представляет собой кортеж из некоторого декартового произведения множеств. Действительно, запись представляет собой именованный упорядоченный набор элементов , каждый из которых принадлежит типу . Таким образом, запись есть элемент множества . Объявляя новые типы записей на основе уже имеющихся типов, пользователь может конструировать сколь угодно сложные типы данных.

Общим для структурированных типов данных является то, что они имеют внутреннюю структуру , используемую на том же уровне абстракции , что и сами типы данных.

Поясним это следующим образом. При работе с массивами или записями можно манипулировать массивом или записью и как с единым целым (создавать, удалять, копировать целые массивы или записи), так и поэлементно. Для структурированных типов данных есть специальные функции - конструкторы типов, позволяющие создавать массивы или записи из элементов более простых типов.

Работая же с простыми типами данных, например с числовыми, мы манипулируем ими как неделимыми целыми объектами. Чтобы "увидеть", что числовой тип данных на самом деле сложен (является набором битов), нужно перейти на более низкий уровень абстракции. На уровне программного кода это будет выглядеть как ассемблерные вставки в код на языке высокого уровня или использование специальных побитных операций.

^ Ссылочные типы данных

Ссылочный тип данных (указатели ) предназначен для обеспечения возможности указания на другие данные. Указатели характерны для языков процедурного типа, в которых есть понятие области памяти для хранения данных. Ссылочный тип данных предназначен для обработки сложных изменяющихся структур, например деревьев, графов, рекурсивных структур.

^ Типы данных, используемые в реляционной модели

Собственно, для реляционной модели данных тип используемых данных не важен. Требование, чтобы тип данных был простым , нужно понимать так, что в реляционных операциях не должна учитываться внутренняя структура данных . Конечно, должны быть описаны действия, которые можно производить с данными как с единым целым, например, данные числового типа можно складывать, для строк возможна операция конкатенации и т.д.

С этой точки зрения, если рассматривать массив, например, как единое целое и не использовать поэлементных операций, то массив можно считать простым типом данных. Более того, можно создать свой, сколь угодно сложных тип данных, описать возможные действия с этим типом данных, и, если в операциях не требуется знание внутренней структуры данных, то такой тип данных также будет простым с точки зрения реляционной теории. Например, можно создать новый тип - комплексные числа как запись вида , где . Можно описать функции сложения, умножения, вычитания и деления, и все действия с компонентами и выполнять только внутри этих операций. Тогда, если в действиях с этим типом использовать только описанные операции, то внутренняя структура не играет роли, и тип данных извне выглядит как атомарный.

Именно так в некоторых пост-реляционных СУБД реализована работа со сколь угодно сложными типами данных, создаваемых пользователями.

Домены

В реляционной модели данных с понятием тип данных тесно связано понятие домена, которое можно считать уточнением типа данных.

Домен - это семантическое понятие. Домен можно рассматривать как подмножество значений некоторого типа данных имеющих определенный смысл. Домен характеризуется следующими свойствами:


  • Домен имеет уникальное имя (в пределах базы данных).

  • Домен определен на некотором простом типе данных или на другом домене.

  • Домен может иметь некоторое логическое условие , позволяющее описать подмножество данных, допустимых для данного домена.

  • Домен несет определенную смысловую нагрузку .
Например, домен , имеющий смысл "возраст сотрудника" можно описать как следующее подмножество множества натуральных чисел:

Отличие домена от понятия подмножества состоит именно в том, что домен отражает семантику , определенную предметной областью. Может быть несколько доменов, совпадающих как подмножества, но несущие различный смысл. Например, домены "Вес детали" и "Имеющееся количество" можно одинаково описать как множество неотрицательных целых чисел, но смысл этих доменов будет различным, и это будут различные домены.

Основное значение доменов состоит в том, что домены ограничивают сравнения . Некорректно, с логической точки зрения, сравнивать значения из различных доменов, даже если они имеют одинаковый тип. В этом проявляется смысловое ограничение доменов. Синтаксически правильный запрос "выдать список всех деталей, у которых вес детали больше имеющегося количества" не соответствует смыслу понятий "количество" и "вес".

Замечание . Понятие домена помогает правильно моделировать предметную область. При работе с реальной системой в принципе возможна ситуация когда требуется ответить на запрос, приведенный выше. Система даст ответ, но, вероятно, он будет бессмысленным.

Замечание . Не все домены обладают логическим условием, ограничивающим возможные значения домена. В таком случае множество возможных значений домена совпадает с множеством возможных значений типа данных.

Замечание . Не всегда очевидно, как задать логическое условие, ограничивающее возможные значения домена. Я буду благодарен тому, кто приведет мне условие на строковый тип данных, задающий домен "Фамилия сотрудника". Ясно, что строки, являющиеся фамилиями не должны начинаться с цифр, служебных символов, с мягкого знака и т.д. Но вот является ли допустимой фамилия "Ггггггыыыыы"? Почему бы нет? Очевидно, нет! А может кто-то назло так себя назовет. Трудности такого рода возникают потому, что смысл реальных явлений далеко не всегда можно формально описать. Просто мы, как все люди, интуитивно понимаем, что такое фамилия, но никто не может дать такое формальное определение, которое отличало бы фамилии от строк, фамилиями не являющимися. Выход из этой ситуации простой - положиться на разум сотрудника, вводящего фамилии в компьютер.

^ Отношения, атрибуты, кортежи отношения

Определения и примеры

Фундаментальным понятием реляционной модели данных является понятие отношения . В определении понятия отношения будем следовать книге К. Дейта .

Определение 1. Атрибут отношения есть пара вида <Имя_атрибута: Имя_домена>.

Имена атрибутов должны быть уникальны в пределах отношения. Часто имена атрибутов отношения совпадают с именами соответствующих доменов.

Определение 2 . Отношение , определенное на множестве доменов (не обязательно различных), содержит две части: заголовок и тело.

Заголовок отношения содержит фиксированное количество атрибутов отношения:

Тело отношения содержит множество кортежей отношения. Каждый кортеж отношения представляет собой множество пар вида <Имя_атрибута: Значение_атрибута>:

Таких что значение атрибута принадлежит домену

Отношение обычно записывается в виде:

Или короче

,

Или просто

Число атрибутов в отношении называют степенью (или -арностью ) отношения.

Мощность множества кортежей отношения называют мощностью отношения.

Возвращаясь к математическому понятию отношения, введенному в предыдущей главе, можно сделать следующие выводы:

Вывод 1 . Заголовок отношения описывает декартово произведение доменов, на котором задано отношение. Заголовок статичен, он не меняется во время работы с базой данных. Если в отношении изменены, добавлены или удалены атрибуты, то в результате получим уже другое отношение (пусть даже с прежним именем).

Вывод 2 . Тело отношения представляет собой набор кортежей, т.е. подмножество декартового произведения доменов. Таким образом, тело отношения собственно и является отношением в математическом смысле слова. Тело отношения может изменяться во время работы с базой данных - кортежи могут изменяться, добавляться и удаляться.

Пример 1 . Рассмотрим отношение "Сотрудники" заданное на доменах "Номер_сотрудника", "Фамилия", "Зарплата", "Номер_отдела". Т.к. все домены различны, то имена атрибутов отношения удобно назвать так же, как и соответствующие домены. Заголовок отношения имеет вид:

Сотрудники (Номер_сотрудника, Фамилия, Зарплата, Номер_отдела)

Пусть в данный момент отношение содержит три кортежа:

(1,Иванов, 1000, 1)

(2, Петров, 2000, 2)

(3, Сидоров, 3000, 1)

Такое отношение естественным образом представляется в виде таблицы:

^ Таблица 1 Отношение "Сотрудники"

Определение 3 . Реляционной базой данных называется набор отношений.

Определение 4 . Схемой реляционной базы

Хотя любое отношение можно изобразить в виде таблицы, нужно четко понимать, что отношения не являются таблицами . Это близкие, но не совпадающие понятия. Различия между отношениями и таблицами будут рассмотрены ниже.

Термины, которыми оперирует реляционная модель данных , имеют соответствующие "табличные" синонимы:


^ Реляционный термин

Соответствующий "табличный" термин

База данных

Набор таблиц

Схема базы данных

Набор заголовков таблиц

Отношение

Таблица

Заголовок отношения

Заголовок таблицы

Тело отношения

Тело таблицы

Атрибут отношения

Наименование столбца таблицы

Кортеж отношения

Строка таблицы

Степень (-арность) отношения

Количество столбцов таблицы

Мощность отношения

Количество строк таблицы

Домены и типы данных

Типы данные в ячейках таблицы

^ Свойства отношений

Свойства отношений непосредственно следуют из приведенного выше определения отношения. В этих свойствах в основном и состоят различия между отношениями и таблицами.


  1. ^ В отношении нет одинаковых кортежей . Действительно, тело отношения есть множество кортежей и, как всякое множество, не может содержать неразличимые элементы (см. понятие множества в гл.1.). Таблицы в отличие от отношений могут содержать одинаковые строки.

  2. ^ Кортежи не упорядочены (сверху вниз) . Действительно, несмотря на то, что мы изобразили отношение "Сотрудники" в виде таблицы, нельзя сказать, что сотрудник Иванов "предшествует" сотруднику Петрову. Причина та же - тело отношения есть множество, а множество не упорядочено. Это вторая причина, по которой нельзя отождествить отношения и таблицы - строки в таблицах упорядочены. Одно и то же отношение может быть изображено разными таблицами, в которых строки идут в различном порядке .

  3. ^ Атрибуты не упорядочены (слева направо) . Т.к. каждый атрибут имеет уникальное имя в пределах отношения, то порядок атрибутов не имеет значения. Это свойство несколько отличает отношение от математического определения отношения (см. гл.1 - компоненты кортежей там упорядочены ). Это также третья причина, по которой нельзя отождествить отношения и таблицы - столбцы в таблице упорядочены. Одно и то же отношение может быть изображено разными таблицами, в которых столбцы идут в различном порядке .

  4. ^ Все значения атрибутов атомарны . Это следует из того, что лежащие в их основе атрибуты имеют атомарные значения. Это четвертое отличие отношений от таблиц - в ячейки таблиц можно поместить что угодно - массивы, структуры, и даже другие таблицы.
Замечание . Из свойств отношения следует, что не каждая таблица может задавать отношение. Для того, чтобы некоторая таблица задавала отношение, необходимо, чтобы таблица имела простую структуру (содержала бы только строки и столбцы, причем, в каждой строке было бы одинаковое количество полей), в таблице не должно быть одинаковых строк, любой столбец таблицы должен содержать данные только одного типа, все используемые типы данных должны быть простыми.

Замечание . Каждое отношение можно считать классом эквивалентности таблиц , для которых выполняются следующие условия:


  • Таблицы имеют одинаковое количество столбцов.

  • Таблицы содержат столбцы с одинаковыми наименованиями.

  • Столбцы с одинаковыми наименованиями содержат данные из одних и тех же доменов.

  • Таблицы имеют одинаковые строки с учетом того, что порядок столбцов может различаться.
Все такие таблицы есть различные изображения одного и того же отношения.

^ Первая нормальная форма

Труднее всего дать определение вещей, которые всем понятны. Если давать не строгое, описательное определение, то всегда остается возможность неправильной его трактовки. Если дать строгое формальное определение, то оно, как правило, или тривиально, или слишком громоздко. Именно такая ситуация с определением отношения в Первой Нормальной Форме (1НФ ). Совсем не говорить об этом нельзя, т.к. на основе 1НФ строятся более высокие нормальные формы, которые рассматриваются далее в гл. 6 и 7. Дать определение 1НФ сложно ввиду его тривиальности. Поэтому, дадим просто несколько объяснений.

Объяснение 1 . Говорят, что отношение находится в 1НФ, если оно удовлетворяет определению 2.

Это, собственно, тавтология, ведь из определения 2 следует, что других отношений не бывает. Действительно, определение 2 описывает, что является отношением, а что - нет, следовательно, отношений в непервой нормальной форме просто нет.

Объяснение 2 . Говорят, что отношение находится в 1НФ, если его атрибуты содержат только скалярные (атомарные) значения.

Опять же, определение 2 опирается на понятие домена, а домены определены на простых типах данных.

Непервую нормальную форму можно получить, если допустить, что атрибуты отношения могут быть определены на сложных типах данных - массивах, структурах, или даже на других отношениях. Легко себе представить таблицу, у которой в некоторых ячейках содержатся массивы, в других ячейках - определенные пользователями сложные структуры, а в третьих ячейках - целые реляционные таблицы, которые в свою очередь могут содержать такие же сложные объекты. Именно такие возможности предоставляются некоторыми современными пост-реляционными и объектными СУБД.

Требование, что отношения должны содержать только данные простых типов, объясняет, почему отношения иногда называют плоскими таблицами (plain table ). Действительно, таблицы, задающие отношения двумерны. Одно измерение задается списком столбцов, второе измерение задается списком строк. Пара координат (Номер строки, Номер столбца) однозначно идентифицирует ячейку таблицы и содержащееся в ней значение. Если же допустить, что в ячейке таблицы могут содержаться данные сложных типов (массивы, структуры, другие таблицы), то такая таблица будет уже не плоской. Например, если в ячейке таблицы содержится массив, то для обращения к элементу массива нужно знать три параметра (Номер строки, Номер столбца, номер элемента в массиве).

Таким образом появляется третье объяснение Первой Нормальной Формы:

Объяснение 3 . Отношение находится в 1НФ, если оно является плоской таблицей.

Мы сознательно ограничиваемся рассмотрением только классической реляционной теории, в которой все отношения имеют только атомарные атрибуты и заведомо находятся в 1НФ.

Выводы

Реляционная модель данных состоит из трех частей:


  • Структурной части.

  • Целостной части.

  • Манипуляционной части.
В классической реляционной модели используются только простые (атомарные) типы данных . Простые типы данных не обладают внутренней структурой.

Домены - это типы данных, имеющие некоторый смысл (семантику). Домены ограничивают сравнения - некорректно, хотя и возможно, сравнивать значения из различных доменов.

Отношение состоит из двух частей - заголовка отношения и тела отношения . Заголовок отношения - это аналог заголовка таблицы. Заголовок отношения состоит из атрибутов. Количество атрибутов называется степенью отношения . Тело отношения - это аналог тела таблицы. Тело отношения состоит из кортежей . Кортеж отношения является аналогом строки таблицы. Количество кортежей отношения называется мощностью отношения .

Отношение обладает следующими свойствами:


  • В отношении нет одинаковых кортежей.

  • Кортежи не упорядочены (сверху вниз).

  • Атрибуты не упорядочены (слева направо).

  • Все значения атрибутов атомарны.
Реляционной базой данных называется набор отношений.

Схемой реляционной базы данных называется набор заголовков отношений, входящих в базу данных.

Отношение находится в Первой Нормальной Форме (1НФ ), если оно содержит только скалярные (атомарные) значения.

РЕЛЯЦИОННАЯ БАЗА ДАННЫХ И ЕЕ ОСОБЕННОСТИ. ВИДЫ СВЯЗЕЙ МЕЖДУ РЕЛЯЦИОННЫМИ ТАБЛИЦАМИ

Реляционная база данных - это совокупность взаимосвязанных таблиц, каждая из которых содержит информацию об объектах определенного типа. Строка таблицы содержит данные об одном объекте (например, товаре, клиенте), а столбцы таблицы описывают различные характеристики этих объектов - атрибутов (например, наименование, код товара, сведения о клиенте). Записи, т. е. строки таблицы, имеют одинаковую структуру - они состоят из полей, хранящих атрибуты объекта. Каждое поле, т. е. столбец, описывает только одну характеристику объекта и имеет строго определенный тип данных. Все записи имеют одни и те же поля, только в них отображаются различные информационные свойства объекта.

В реляционной базе данных каждая таблица должна иметь первичный ключ - поле или комбинацию полей, которые единственным образом идентифицируют каждую строку таблицы. Если ключ состоит из нескольких полей, он называется составным. Ключ должен быть уникальным и однозначно определять запись. По значению ключа можно отыскать единственную запись. Ключи служат также для упорядочивания информации в БД.

Таблицы реляционной БД должны отвечать требованиям нормализации отношений. Нормализация отношений - это формальный аппарат ограничений на формирование таблиц, который позволяет устранить дублирование, обеспечивает непротиворечивость хранимых в базе данных, уменьшает трудозатраты на ведение базы данных.

Пусть создана таблица Студент, содержащая следу-рэщие поля: № группы, ФИО, № зачетки, дата рождения, шазвание специальности, название факультета. Такая организация хранения информации будет иметь ряд недостатков:

  • дублирование информации (наименование специальности и факультета повторяются для каждого студента), следовательно, увеличится объем БД;
  • процедура обновления информации в таблице затрудняется из-за необходимости редактирования каждой записи таблицы.

Нормализация таблиц предназначена для устранения этих недостатков. Имеется три нормальные формы отношений .

Первая нормальная форма. Реляционная таблица приведена к первой нормальной форме тогда и только тогда, когда ни одна из ее строк не содержит в любом своем поле более одного значения и ни одно из ее ключевых полей не пусто. Так, если из таблицы Студент требуется получать сведения по имени студента, то поле ФИО следует разбить на части Фамилия, Имя, Отчество.

Вторая нормальная форма . Реляционная таблица задана во второй нормальной форме, если она удовлетворяет требованиям первой нормальной формы и все ее поля, не входящие в первичный ключ, связаны полной функциональной зависимостью с первичным ключом. Чтобы привести таблицу ко второй нормальной форме, необходимо определить функциональную зависимость полей. Функциональная зависимость полей - это зависимость, при крторой в экземпляре информационного объекта определенному значению ключевого реквизита соответствует только одно значение описательного реквизита.

Третья нормальная форма. Таблица находится в третьей нормальной форме, если она удовлетворяет требованиям второй нормальной формы, ни одно из ее неключевых полей не зависит функционально от любого другого неключевого поля. Например, в таблице Студент (№ группы, ФИО, № зачетной книжки, Дата рождения, Староста) три поля - № зачетной книжки, № группы, Староста находятся в транзитивной зависимости. № группы зависит от № зачетной книжки, а Староста зависит от № группы. Для устранения транзитивной зависимости необходимо часть полей таблицы Студент перенести в другую таблицу Группа. Таблицы примут следующий вид: Студент (№ группы, ФИО, № зачетной книжки, Дата рождения), Группа (№ группы, Староста).

Над реляционными таблицами возможны следующие операции:

  • Объединение таблиц с одинаковой структурой. Результат- общая таблица: сначала первая, затем вторая (конкатенация).
  • Пересечение таблиц с одинаковой структурой. Результат - выбираются те записи, которые находятся в обеих таблицах.
  • Вычитание таблиц с одинаковой структурой. Результат - выбираются те записи, которых нет в вычитаемом.
  • Выборка (горизонтальное подмножество). Результат - выбираются записи, отвечающие определенным условиям.
  • Проекция (вертикальное подмножество). Результат - отношение, содержащее часть полей из исходных таблиц.
  • Декартово произведение двух таблиц Записи результирующей таблицы получаются путем объединения каждой записи первой таблицы с каждой записью другой таблицы.

Реляционные таблицы могут быть связаны друг с другом, следовательно, данные могут извлекаться одновременно из нескольких таблиц. Таблицы связываются между собой для того, чтобы в конечном счете уменьшить объем БД. Связь каждой пары таблиц обеспечивается при наличии в них одинаковых столбцов.

Существуют следующие типы информационных связей:

  • один-к-одному;
  • один-ко-многим;
  • многие-ко-многим.

Связь один-к-одному предполагает, что одному атрибуту первой таблицы соответствует только один атрибут второй таблицы и наоборот.

Связь один-ко-многим предполагает, что одному атрибуту первой таблицы соответствует несколько атрибутов второй таблицы.

Связь многие-ко-многим предполагает, что одному атрибуту первой таблицы соответствует несколько атрибутов второй таблицы и наоборот.

Главная > Лекция

Лекция БД Глава 2 РЕЛЯЦИОННЫЕ БАЗЫ ДАННЫХ 2.1. Термины и определения Развитие реляционных баз данных началось в конце 1960-х гг., когда появились первые работы, в которых обсуждались возмож-ности использования привычных для специалиста способов фор-мализованного представления данных в виде таблиц. Некоторые специалисты такой способ представления информации называли таблицами решений, другие - табличными алгоритмами. Теоре-тики реляционных баз данных табличный способ представления информации называли даталогическими моделями. Основоположником теории реляционных баз данных считается сотрудник фирмы IВM доктор Э. Ф. Кодд, опубликовавший 6 июня 1970 г. статью «Реляционная модель данных для больших коллек-тивных банков данных» «А Relational Model of Data for Large Shared Data Banks». В этой статье впервые и был использован термин «ре-ляционная модель данных», что и положило начало реляцион-ным базам данных. Теория реляционных баз данных, разработанная в 1970- х гг. в США доктором Э. Ф. Коддом, опиралась на математический аппарат те-ории множеств. Он доказал, что любой набор данных МОЖНО пред-ставить в виде двумерных таблиц особого вида, известных в матема-тике как отношения. От английского слова «relation» «отношение») и произошло название «реляционная модель данных». В настоящее время теоретическую основу проектирования баз данных (БД) состав-ляет математический аппарат реляционной алгебры (см. подразд. 1.2). Таким образом, реляционная БД представляет собой инфор-мацию (данные) об объектах, представленную в виде двумерных массивов - таблиц, объединенных определенными связями. База данных может состоять и из одной таблицы. Прежде чем присту-пить к дальнейшему изучению реляционных баз данных, рассмот-рим применяемые в теории и практике термины и определения. Таблица базы данных - двумерный массив, содержащий ин-формацию об одном классе объектов. В теории реляционной ал-гебры двумерный массив (таблицу) называют отношением. Таблица состоит из следующих элементов: поле, ячейка, за-пись (рис. 2.1). Поле содержит значения одного из признаков, характеризу-ющих объекты БД. Число полей в таблице соответствует числу при-знаков, характеризующих объекты БД. 22 Ячейка содержит конкретное значение соответствующего поля (признака одного объекта). Запись - строка таблицы. Она содержит значения всех призна-ков, характеризующих один объект. Число записей (строк) соот-ветствует числу объектов, данные о которых содержатся в таб-лице. В теории баз данных термину запись соответствует понятие кор-теж - последовательность атрибутов, связанных между собой от-ношением AND (И). В теории графов кортеж означает простую ветвь ориентированного графа - дерева. В табл. 2.1 приведены термины, применяемые в теории и прак-тике разработки реляционных баз данных. Одним из важных понятий, необходимых для построения оп-тимальной структуры реляционных баз данных, является понятие ключа, или ключевого поля. Ключом считается поле, значения которого однозначно опреде-ляют значения всех остальных полей в таблице. Например, поле «Номер паспорта», или «Идентификационный номер налогопла-тельщика (ИНН)», однозначно определяет характеристики любого физического лица (при составлении соответствующих таблиц баз данных ДЛЯ отделов кадров или бухгалтерии предприятия).
23

Ключом таблицы может быть не одно, а несколько полей. В этом случае множество полей может быть возможным ключом таблицы только тогда, когда удовлетворяются два независимых от времени условия: уникальность и минимальность. Каждое поле, не входя-щее в состав первичного ключа, называется не ключевым полем таблицы.

Уникальность ключа означает, что в любой момент времени таблица базы данных не может содержать никакие две различные записи, имеющие одинаковые значения ключевых полей. Выпол-нение условия уникальности является обязательным. Условие минимальности ключевых полей означает, что только сочетание значений выбранных полей отвечает требованиям уни-кальности записей таблицы базы данных. Это означает также, что ни одно из входящих в ключ полей не может быть исключено из него без нарушения уникальности. При формировании ключа таблицы базы данных, состоящего из нескольких полей, необходимо руководствоваться следующи-ми положениями: не следует включать в состав ключа поля таблицы, значения которых сами по себе однозначно идентифицируют записи в таб-лице. Например, не стоит создавать ключ, содержащий одновре-менно поля «номер паспорта» и «идентификационный номер на-логоплательщика», поскольку каждый из этих атрибутов может однозначно идентифицировать записи в таблице; нельзя включать в состав ключа неуникальное поле, т. е. поле, значения которого могут повторяться в таблице. Каждая таблица должна иметь, по крайней мере, один воз-можный ключ, который выбирается в качестве первичного ключа. Если в таблице существуют поля, значения каждого из которых однозначно определяют записи, то эти поля могут быть приняты в качестве альтернативных ключей. Например, если в качестве первичного ключа выбрать идентификационный номер нало-гоплательщика, то номер паспорта будет альтернативным ключом. 2.2. Нормализация таблиц реляционной базы данных Реляционная база данных представляет собой некоторое мно-жество таблиц, связанных между собой. Число таблиц в одном файле или одной базе данных зависит от многих факторов, основ-ными из которых являются: состав пользователей базы данных, обеспечение целостности информации (особенно важно в мно-гопользовательских информационных системах), обеспечение наименьшего объема требуемой памяти и мини-мального времени обработки данных. 24

Учет данных факторов при проектировании реляционных баз данных осуществляется методами нормализации таблиц и уста-HoBлeHиeM связей между ними.

Нормализация таблиц представляет собой способы разделения одной таблицы базы данных на несколько таблиц, в целом отве-чающих перечисленным выше требованиям. Нормализация таблицы представляет собой последовательное изменение структуры таблицы до тех пор, пока она не будет удов-летворять требованиям последней формы нормализации. Всего су-ществует шесть форм нормализации:
    первая нормальная форма (First Normal Form - 1NF); вторая нормальная форма (Second Normal Form - 2NF); третья нормальная форма (Third Normal Form - ЗNF); нормальная форма Бойса - Кодда (Brice - Codd Normal Form -BCNF); четвертая нормальная форма (Foиrth Normal Form - 4NF); пятая нормальная форма, или нормальная форма проекции--соединения (Fifth Normal Form - 5NF, или PJ/NF).
При описании нормальных форм используются следующие по-нятия: «функциональная зависимость между полями»; «полная функциональная зависимость между полями»; «многозначная функ-циональная зависимость между полями»; «транзитивная функцио-нальная зависимость между полями»; «взаимная независимость между полями». Функциональной зависимостью между полями А и В называется зависимость, при которой каждому значению А в любой момент времени соответствует единственное значение В из всех возмож-ных. Примером функциональной зависимости может служить связь между идентификационным номером налогоплательщика и но-мером его паспорта. Полной функциональной зависимостью между составным полем А и полем В называется зависимость, при которой поле В зависит функционально от поля А и не зависит функционально от любого подмножества поля А. Многозначная функциональная зависимость между полями опре-деляется следующим образом. Поле А многозначно определяет поле В, если для каждого значения поля А существует «хорошо опре-деленное множество» соответствующих значений поля В. Напри-Мер, если рассматривать таблицу успеваемости учащихся в шко-Ле, включающую в себя поля «Предмет» (поле А) и «Оценка» (поле В), то поле В имеет «хорошо определенное множество» до-пустимых значений: 1, 2, 3, 4, 5, т. е. для каждого значения поля «Предмет» существует многозначное «хорошо определенное мно-жество» значений поля «Оценка». Транзитивная функциональная зависимость между полями А и С Существует в том случае, если поле С функционально зависит от 25 поля В, а поле В функционально зависит от поля А; при этом не существует функциональной зависимости поля А от поля В. Взаимная независимость между полями определяется следующим образом. Несколько полей взаимно независимы, если ни одно из них не является функционально зависимым от другого. Первая нормальная форма. Таблица находится в первой нор-мальной форме тогда и только тогда, когда ни одно из полей не содержит более одного значения и любое ключевое поле не пусто. Первая нормальная форма является основой реляционной мо-дели данных. Любая таблица в реляционной базе данных автома-тически находится в первой нормальной форме, иное просто не-возможно по определению. В такой таблице не должно содержать-ся полей (признаков), которые можно было бы разделить на несколько полей (признаков). Ненормализованными, как правило, бывают таблицы, изна-чально не предназначенные для компьютерной обработки содержащейся в них информации. Например, в табл. 2.2 показан фраг-мент таблицы из справочника «Универсальные металлорежущие станки», изданного Экспериментальным научно- исследователь-ским институтом металлорежущих станков (ЭНИМС). Данная таблица является ненормализованной по следующим причинам. 1. Она содержит строки, имеющие в одной ячейке несколько значений одного поля: «Наибольший диаметр обработки, мм» и «Частота вращения шпинделя, об/мин». 2. Одно поле - «Габаритные размеры (длина х ширина х высо-та), мм» может быть разделено на три поля: «Длина, мм», «Ши-рина, мм» И «Высота, мм». Целесообразность такого разделения может быть обоснована необходимостью последующих расчетов площадей или занимаемых объемов. Исходная таблица должна быть преобразована в первую нор-мальную форму. Для этого необходимо: поля «Наибольший диаметр обработки, мм» и «Частота вра-щения шпинделя, об/мин» разделить на несколько полей в соот-ветствии с числом значений, содержащихся в одной ячейке;
26

Поле «Габаритные размеры (длина х ширина х высота), мм» , разделить на три поля: «Длина, мм», «Ширина, мм», «Высота, мм». Ключевым полем данной таблицы может быть поле «Модель станка» или «№ п/п» Вид нормальной формы имеет табл. 2.3. Рассмотрим еще один пример. На рис. 2.2 показан фрагмент бланка зачетно-экзаменационной ведомости, который, как и в предыдущем примере, изначально не предназначался для компь-ютерной обработки. Пусть мы хотим создать базу данных для автоматизированной обработки результатов зачетно-экзаменационной сессии в соответствии
27

с содержанием зачетно-экзаменационной ведомости. Для этого преобразуем содержание бланка в таблицы базы данных. Ис-ходя из необходимости соблюдения условий функциональной за-висимости между полями необходимо сформировать, как мини-мум, две таблицы (рис. 2.3) (ключевые поля в каждой таблице выделены полужирным шрифтом). В первой таблице содержатся результаты сдачи зачета (экзамена) каждым студентом по конк-ретному предмету. Во второй таблице содержатся результирующие итоги сдачи зачета (экзамена) конкретной группы студентов по конкретному предмету. В первой таблице ключевым является поле «ФИО студента», а во второй таблице - поле «Дисциплина». Таб-лицы должны быть связаны между собой по полям «Дисциплина» И «Шифр группы».

Представленные структуры таблиц полностью отвечает требо-ваниям первой нормальной формы, но характеризуется следу-ющими недостатками: добавление новых данных в таблицы требует ввода значений для всех полей; в каждую строку каждой таблицы необходимо вводить повто-ряющиеся значения полей «Дисциплина», «ФИО преподавателя», «Шифр группы». Следовательно, при таком составе таблиц и их структуре име-ется явная избыточность информации, что, естественно, потре-бует дополнительных объемов памяти. Чтобы избежать перечисленных недостатков, необходимо при-вести таблицы ко второй или третьей нормальной форме. Вторая нормальная форма. Таблица находится во второй нор-мальной форме, если она удовлетворяет требованиям первой нор-мальной формы и все ее поля, не входящие в первичный ключ, связаны полной функциональной зависимостью с первичным ключом. 28

Если таблица имеет простой первичный ключ, состоящий толь-ко из одного поля, то она автоматически находится во второй нормальной форме.

Если же первичный ключ составной, то таблица необязатель-но находится во второй нормальной форме. Тогда ее необходимо разделить на две или более таблиц таким образом, чтобы первич-ный ключ однозначно идентифицировал значение в любом поле. Если в таблице имеется хотя бы одно поле, не зависящее от пер-вичного ключа, то в первичный ключ необходимо включить до-полнительные колонки. Если таких колонок нет, то необходимо добавить новую колонку. Исходя из данных условий, определяющих вторую нормаль-ную форму, можно сделать следующие выводы по характеристике составленных таблиц (см. рис. 2.3). В первой таблице нет прямой связи между ключевым полем и полем «ФИО преподавателя», поскольку зачет или экзамен по одному предмету могут принимать разные преподаватели. В табли-це существует полная функциональная зависимость только между всеми остальными полями и ключевым полем «Дисциплина». Аналогично во второй таблице нет прямой связи между ключе-вым полем и полем «ФИО преподавателя». Для оптимизации базы данных, в частности для уменьшения требуемого объема памяти из-за необходимости повторения в каждой записи значений полей «Дисциплина» И «ФИО препо-давателя», необходимо изменить структуру базы данных - пре-образовать исходные таблицы во вторую нормальную форму. Состав таблиц измененной структуры базы данных показан на рис. 2.4. Преобразованная структура базы данных состоит из шести таб-лиц, две из которых связаны между собой (ключевые поля в каж-дой таблице выделены полужирным шрифтом). Все таблицы удов-летворяют требованиям второй нормальной формы. Пятая и шестая таблицы имеют в полях повторяющиеся значе-ния, но, учитывая, что эти значения представляют собой целые числа вместо текстовых данных, общий объем требуемой памяти для хранения информации значительно меньше, чем в исходных таблицах (см. рис. 2.1). Кроме того, новая структура базы данных обеспечит возмож-ность заполнения таблиц различными специалистами (подразде-лениями управленческих служб). Дальнейшая оптимизация таб-лиц баз данных сводится к приведению их к третьей нормальной форме. Третья нормальная форма. Таблица находится в третьей нор-мальной форме, если она удовлетворяет определению второй нор-мальной формы и ни одно из ее не ключевых полей не зависит функционально от любого другого не ключевого поля. 29

Можно также сказать, что таблица находится в третьей нор-мальной форме, если она находится во второй нормальной форме и каждое не ключевое поле не транзитивно зависит от первичного ключа. Требование третьей нормальной формы сводится к тому, чтобы все не ключевые поля зависели только от первичного ключа и не зависели друг от друга. В соответствии с этими требованиями в составе таблиц базы данных (см. рис. 2.3) к третьей нормальной форме относятся пер-вая, вторая, третья и четвертая таблицы. Для приведения пятой и шестой таблиц к третьей нормальной форме создадим новую таблицу, содержащую информацию о со-ставе предметов, по которым проводятся экзамены или зачеты в группах студентов. В качестве ключа создадим поле «Счетчик», ус-танавливающий номер записи в таблице, так как каждая запись должна быть уникальна. 30

В результате получим новую структуру базы данных, которая показана на рис. 2.5 (ключевые поля в каждой таблице выделены полужирным шрифтом). В данной структуре содержится семь таб-лиц, которые отвечают требованиям третьей нормальной формы.

Нормальная форма Бойса - Кодда. Таблица находится в нор-мальной форме Бойса - Кодда только в том случае, если любая функциональная зависимость между ее полями сводится к пол-ной функциональной зависимости от возможного ключа. Согласно данному определению в структуре базы данных (см. рис. 2.4) все таблицы соответствуют требованиям нормальной формы Бойса - Кодда. Дальнейшая оптимизация таблиц баз данных должна сводить-ся к полной декомпозиции таблиц. Полной декомпозицией таблицы называют такую совокупность произвольного числа ее проекций, соединение которых полно-стью совпадает с содержимым таблицы. Проекцией называют копию таблицы, в которую не включены одна или несколько колонок новой таблицы. Четвертая нормальная форма. Четвертая нормальная форма яв-ляется частным случаем пятой нормальной формы, когда полная декомпозиция должна быть соединением двух проекций.
31

Очень трудно найти такую таблицу, чтобы она находилась в четвертой нормальной форме, но не удовлетворяла определению пятой нор-мальной формы.

Пятая нормальная форма. Таблица находится в пятой нормаль-ной форме тогда и только тогда, когда в каждой ее полной деком-позиции все проекции содержат возможный ключ. Таблица, не имеющая ни одной полной декомпозиции, также находится в пятой нормальной форме. На практике оптимизация таблиц базы данных заканчивается третьей нормальной формой. Приведение таблиц к четвертой и пятой нормальным формам представляет, по нашему мнению, чисто теоретический интерес. Практически эта проблема решает-ся разработкой запросов на создание новой таблицы. 2.3. Проектирование связей между таблицами Процесс нормализации исходных таблиц баз данных позволяет создать оптимальную структуру информационной системы - раз-работать базу данных, требующую наименьших ресурсов памяти и, как следствие, обеспечивающую наименьшее время доступа к информации. В то же время разделение одной исходной таблицы на несколь-ко требует выполнения одного из важнейших условий проектиро-вания информационных систем - обеспечения целостности ин-формации в процессе эксплуатации базы данных. В приведенном выше примере нормализации исходных таб-лиц (см. рис. 2.3) из двух таблиц в конечном итоге мы получили семь таблиц, приведенных к третьей и четвертой нормальным формам. Как показывает практика, в реальном производстве и бизнесе базы данных представляют собой многопользовательские систе-мы. Это относится как к созданию и поддержанию данных в от-дельных таблицах, так и к использованию информации для при-нятия решений. В рассмотренном выше примере, в реально функционирующей системе управления учебным процессом в вузе или колледже, пер-воначальное формирование учебных групп производится прием-ными комиссиями при зачислении абитуриентов по результатам вступительных экзаменов. Дальнейшее поддержание информации о составе студентов в группах в вузах возлагается на деканаты, а в колледжах - на учебные отделения или соответствующие струк-туры. Состав учебных дисциплин по группам определяется други-ми службами или специалистами. Информация о преподаватель-ском составе формируется в отделах кадров. Результаты зачетных и экзаменационных сессий необходимы руководителям деканата и отделений, в том числе и для принятия решений о предоставлении 32 успевающим студентам стипендии или «снятии со стипен-дию» неуспевающих студентов. Любое изменение в любой из таблиц базы данных должно на-ходить адекватное изменение во всех других таблицах. Это и со-ставляет сущность обеспечения целостности базы данных. Прак-тически эта задача осуществляется установлением связей между таблицами базы данных. Сформулируем основные правила установления связей между таблицами. 1. Выбрать из двух связываемых таблиц главную и подчинен-ную. 2. В каждой таблице выбрать ключевое поле. Ключевое поле глав-ной таблицы называют первичным ключом. Ключевое поле подчи-ненной таблицы называют внешним ключом. 3. Связываемые поля таблиц должны иметь один тип данных. 4. Между таблицами устанавливаются следующие типы связей: «один к одному»; «один ко многим»; «многие ко многим»: связь «один к одному» устанавливается в случаях, когда конкретная строка главной таблицы в любой момент времени связана только с одной строкой подчиненной таблицы; связь «один ко многим» устанавливается в случаях, когда конкретная строка главной таблицы в любой момент времени
33 связана с несколькими строками подчиненной таблицы; при этом любая строка подчиненной таблицы связана только с од-ной строкой главной таблицы; связь «многие ко многим» устанавливается в случаях, ког-да конкретная строка главной таблицы в любой момент време-ни связана с несколькими строками подчиненной таблицы и в то же время одна строка подчиненной таблицы связана с не-сколькими строками главной таблицы. При изменении значения первичного ключа в главной таблице возможны следующие варианты поведения зависимой таблицы. Каскадирование (Cascading). При изменении данных первично-го ключа в главной таблице происходит изменение соответству-ющих данных внешнего ключа в зависимой таблице. Все имеющи-еся связи сохраняются. Ограничение (Restrict). При попытке изменить значение пер-вичного ключа, с которым связаны строки в зависимой таблице, изменения отвергаются. Допускается изменение лишь тех значе-ний первичного ключа, для которых не установлена связь с зави-симой таблицей. Установление (Relation). При изменении данных первичного ключа внешний ключ устанавливается в неопределенное значе-ние (NULL). Информация о принадлежности строк зависимой таблицы теряется. Если изменить несколько значений первичного ключа, то в зависимой таблице образуется несколько групп строк, которые ранее были связаны с измененными ключами. После это-го невозможно определить, какая строка с каким первичным клю-чом была связана. На рис. 2.6 показаны схемы связей меЖдУ таблицами базы дан-ных, представленной на рис. 2.5. Контрольные вопросы 1. Дайте определения следующим элементам таблицы баз данных: поле, ячейка, запись. 2. Что означают понятия «ключ», «ключевое поле»? 3. Какое ключевое поле называют первичным ключом, а какое - внешним ключом? 4. В чем состоит процесс нормализации таблиц базы данных? 5. Какие пять нормальных форм таблиц баз данных вы знаете? 6. Дайте определения следующим типам связей между таблицами базы данных: «один к одному»; «один ко многим»; «многие ко многим».