Создание онтологии на основе Basic Formal Ontology: различия между версиями
Vserge (обсуждение | вклад) м (→Обзор процесса проектирования онтологии предметной области: поправлен шаг1) |
Vserge (обсуждение | вклад) (→11. Избегайте массовых существительных.: добавлена 12 раздел) |
||
(не показано 7 промежуточных версий этого же участника) | |||
Строка 96: | Строка 96: | ||
Шаг 2 - это задача собрать подборку (около пятидесяти) наиболее распространенных терминов весьма общего характера, некоторые из них взяты из соответствующих онтологий, некоторые из стандартных учебников. |
Шаг 2 - это задача собрать подборку (около пятидесяти) наиболее распространенных терминов весьма общего характера, некоторые из них взяты из соответствующих онтологий, некоторые из стандартных учебников. |
||
+ | Шаг 3 представляет собой предварительное упорядочение этих терминов в иерархии более и менее общих и служит предшественником шага 4. |
||
− | Шаг 3 представляет собой предварительное упорядочение этих терминов в иерархии более и менее общих и служит предшественником шага 4. Шаг 4 состоит в работе над этой иерархией для обеспечения согласованности, например, путем добавления дополнительных терминов для обеспечения полной таксономической иерархии онтологии; и идентификации терминов, относящихся к универсалиям самого высокого уровня в рассматриваемой предметной области, которые будут служить корневым узлом или узлами онтологии разрабатывается. Это также будет включать в себя создание набора понятных человеку определений для выбранных терминов, что будет включать сбор дополнительной информации о наиболее важных универсалиях предметной области, которые охватываются этими универсалиями самого высокого уровня, и идентификацию любых соответствующих терминов в соседних онтологиях, которые понадобятся при формулировании из определений. Начиная с корневых узлов и двигаясь вниз, мы пытаемся определить последовательные роды и отличительные характеристики, которые необходимо будет включить в определения сущностей, подлежащих включению в онтологию; и мы корректируем нашу предварительную схему классификации в свете любых изменений, которые диктуют наши определения. |
||
+ | |||
+ | Шаг 4 состоит в работе над этой иерархией для обеспечения согласованности, например, путем добавления дополнительных терминов для обеспечения полной таксономической иерархии онтологии; и идентификации терминов, относящихся к универсалиям самого высокого уровня в рассматриваемой предметной области, которые будут служить корневым узлом или узлами онтологии разрабатывается. Это также будет включать в себя создание набора понятных человеку определений для выбранных терминов, что будет включать сбор дополнительной информации о наиболее важных универсалиях предметной области, которые охватываются этими универсалиями самого высокого уровня, и идентификацию любых соответствующих терминов в соседних онтологиях, которые понадобятся при формулировании из определений. Начиная с корневых узлов и двигаясь вниз, мы пытаемся определить последовательные роды и отличительные характеристики, которые необходимо будет включить в определения сущностей, подлежащих включению в онтологию; и мы корректируем нашу предварительную схему классификации в свете любых изменений, которые диктуют наши определения. |
||
Процесс регламентации является итеративным и будет включать последовательные циклы проверки версий иерархии терминов и определений на предмет логической, философской и научной адекватности, включая последовательность и понятность для человека, а также обеспечение того, чтобы в результате не были упущены какие-либо существенные элементы предметной области. |
Процесс регламентации является итеративным и будет включать последовательные циклы проверки версий иерархии терминов и определений на предмет логической, философской и научной адекватности, включая последовательность и понятность для человека, а также обеспечение того, чтобы в результате не были упущены какие-либо существенные элементы предметной области. |
||
+ | |||
Как только таким образом будет достигнуто полное понимание предметной области, этап 5 - это задача итеративного кодирования онтологии посредством логической формализации. Это достигается путем преобразования определений терминов на естественном языке, содержащихся в онтологии, в формат, пригодный для использования на компьютере, с использованием инструмента редактирования онтологии. |
Как только таким образом будет достигнуто полное понимание предметной области, этап 5 - это задача итеративного кодирования онтологии посредством логической формализации. Это достигается путем преобразования определений терминов на естественном языке, содержащихся в онтологии, в формат, пригодный для использования на компьютере, с использованием инструмента редактирования онтологии. |
||
+ | |||
Хотя процесс из пяти шагов по своей природе является нисходящим, работая от очень общих к последовательно менее общим терминам в онтологии, на практике он будет включать в себя большое количество циклов обратной связи между последовательными шагами. В следующих разделах мы более подробно обсудим процессы демаркации и сбора информации. В главе 4 мы рассмотрим проблему регламентации, а к вопросам кодирования вернемся в главе 8. |
Хотя процесс из пяти шагов по своей природе является нисходящим, работая от очень общих к последовательно менее общим терминам в онтологии, на практике он будет включать в себя большое количество циклов обратной связи между последовательными шагами. В следующих разделах мы более подробно обсудим процессы демаркации и сбора информации. В главе 4 мы рассмотрим проблему регламентации, а к вопросам кодирования вернемся в главе 8. |
||
Строка 107: | Строка 111: | ||
== Предметная область и онтологии верхнего уровня == |
== Предметная область и онтологии верхнего уровня == |
||
Мы видели, что для целей успешного управления научной информацией в долгосрочной перспективе корневой узел или узлы онтологии предметной области должны быть определены в терминах некоторой очень общей универсалии, взятой из нейтральной к предметной области онтологии, такой как BFO. Это поможет гарантировать, что онтология построена с использованием архитектуры онтологий высокого уровня, которая совместно используется с другими онтологиями. |
Мы видели, что для целей успешного управления научной информацией в долгосрочной перспективе корневой узел или узлы онтологии предметной области должны быть определены в терминах некоторой очень общей универсалии, взятой из нейтральной к предметной области онтологии, такой как BFO. Это поможет гарантировать, что онтология построена с использованием архитектуры онтологий высокого уровня, которая совместно используется с другими онтологиями. |
||
+ | |||
− | Если, например, отношение part_of утверждается в данной формальной онтологии как транзитивное (так что если x part_of y и y part_of z, то x part_of z будет выполняться), то в онтологии предметной области, построенной на его основе, например, в области анатомии, мы будем возможность использовать эту особенность отношения принадлежности к партии для вывода из части пальца руки и части предплечья тела к части пальца тела. |
||
+ | Если, например, отношение part_of утверждается в данной формальной онтологии как транзитивное (так что если ''x part_of y'' и ''y part_of z'', то ''x part_of z'' будет выполняться), то в онтологии предметной области, построенной на его основе, например, в области анатомии, мы будем возможность использовать эту особенность отношения принадлежности к партии для вывода из части пальца руки и части предплечья тела к части пальца тела. |
||
Аналогично, если онтология верхнего уровня содержит различные представления для континуантов (трехмерных сущностей, которые продолжают существовать во времени, таких как планеты и молекулы) и событий (сущностей, которые происходят, что означает, что они распределены не только в пространстве, но и во времени, таких как бейсбольный матч или движение планеты по ее орбите), то все онтологии предметной области, определенные на ее основе, должны будут соблюдать это же различие между объектами, которые она представляет. |
Аналогично, если онтология верхнего уровня содержит различные представления для континуантов (трехмерных сущностей, которые продолжают существовать во времени, таких как планеты и молекулы) и событий (сущностей, которые происходят, что означает, что они распределены не только в пространстве, но и во времени, таких как бейсбольный матч или движение планеты по ее орбите), то все онтологии предметной области, определенные на ее основе, должны будут соблюдать это же различие между объектами, которые она представляет. |
||
+ | |||
− | В этих и ряде других связанных с ними аспектов онтология верхнего уровня помогает обеспечить корректность построения онтологий на более низких уровнях. Если онтология использует part_of, но содержит утверждения, противоречащие транзитивности, то эти утверждения могут быть помечены как нуждающиеся в ручной проверке. Если онтология распознает различие между вещами и процессами, то проблемные случаи — например, такие термины, как “мутация гена”, которые неоднозначны в отношении значений "вещь" и "процесс" - могут быть выявлены заранее и выпущены предупреждения, требующие от разработчиков подвергнуть такие термины дополнительной проверке вручную. BFO был разработан для того, чтобы играть такого рода роль в процессе проектирования онтологий предметной области и обеспечения качества.2 |
||
+ | В этих и ряде других связанных с ними аспектов онтология верхнего уровня помогает обеспечить корректность построения онтологий на более низких уровнях. Если онтология использует part_of, но содержит утверждения, противоречащие транзитивности, то эти утверждения могут быть помечены как нуждающиеся в ручной проверке. Если онтология распознает различие между вещами и процессами, то проблемные случаи — например, такие термины, как “мутация гена”, которые неоднозначны в отношении значений "вещь" и "процесс" - могут быть выявлены заранее и выпущены предупреждения, требующие от разработчиков подвергнуть такие термины дополнительной проверке вручную. BFO был разработан для того, чтобы играть такого рода роль в процессе проектирования онтологий предметной области и обеспечения качества. |
||
+ | |||
По этим причинам важно в начале разработки онтологии, специфичной для предметной области, рассмотреть, какие онтологические категории и отношения верхнего уровня могут быть применимы к рассматриваемой предметной области, и выбрать онтологию верхнего уровня, представляющую достаточные и достаточно ясные категории и отношения для обработки основных виды сущностей, которые можно найти в рассматриваемом домене. Важно отметить, что, по определению, онтология верхнего уровня должна быть нейтральной к предметной области. Таким образом, он не должен содержать представлений об отношениях и универсалиях, специфичных для какой-либо данной предметной области. Таким образом, по сравнению со многими онтологиями предметной области, определенными в ее терминах, она будет очень маленькой. Онтологический контент, относящийся к каждой конкретной предметной области, затем добавляется к онтологии верхнего уровня в процессе нисходящего заполнения. |
По этим причинам важно в начале разработки онтологии, специфичной для предметной области, рассмотреть, какие онтологические категории и отношения верхнего уровня могут быть применимы к рассматриваемой предметной области, и выбрать онтологию верхнего уровня, представляющую достаточные и достаточно ясные категории и отношения для обработки основных виды сущностей, которые можно найти в рассматриваемом домене. Важно отметить, что, по определению, онтология верхнего уровня должна быть нейтральной к предметной области. Таким образом, он не должен содержать представлений об отношениях и универсалиях, специфичных для какой-либо данной предметной области. Таким образом, по сравнению со многими онтологиями предметной области, определенными в ее терминах, она будет очень маленькой. Онтологический контент, относящийся к каждой конкретной предметной области, затем добавляется к онтологии верхнего уровня в процессе нисходящего заполнения. |
||
Строка 115: | Строка 122: | ||
Задача определения того, какую часть реальности должна представлять онтология предметной области, включает также решение проблемы определения того, какие и в каком объеме существующие данные и информация о данной предметной области должны быть включены в онтологию. Это можно резюмировать как проблему определения того, что имеет отношение к онтологии, вопрос, который должен определяться (1) текущим состоянием науки и, следовательно, структурой соответствующей части реальности, (2) степенью, в которой можно полагаться на существующие онтологии в соседних областях в поддержке разработки данной онтологии и (3) практическими целями, которым должна удовлетворять онтология. |
Задача определения того, какую часть реальности должна представлять онтология предметной области, включает также решение проблемы определения того, какие и в каком объеме существующие данные и информация о данной предметной области должны быть включены в онтологию. Это можно резюмировать как проблему определения того, что имеет отношение к онтологии, вопрос, который должен определяться (1) текущим состоянием науки и, следовательно, структурой соответствующей части реальности, (2) степенью, в которой можно полагаться на существующие онтологии в соседних областях в поддержке разработки данной онтологии и (3) практическими целями, которым должна удовлетворять онтология. |
||
Например, то, что объективно относится к клеточной онтологии (CL), определяется природой самих клеток, тем, что они собой представляют, какие процессы они характерно инициируют или в которые вовлечены, и так далее. Таксономия иммунных клеток CL создана на основе информации о белковых молекулах, экспрессируемых на клеточных поверхностях; представления соответствующих типов молекул взяты из онтологии белков (PRO), чтобы создать такие определения, как следующие: |
Например, то, что объективно относится к клеточной онтологии (CL), определяется природой самих клеток, тем, что они собой представляют, какие процессы они характерно инициируют или в которые вовлечены, и так далее. Таксономия иммунных клеток CL создана на основе информации о белковых молекулах, экспрессируемых на клеточных поверхностях; представления соответствующих типов молекул взяты из онтологии белков (PRO), чтобы создать такие определения, как следующие: |
||
+ | |||
лимфоцит линии В = def. лимфоцит и (имеет_плазма_мембранную часть некоторой молекулы CD19) и (отсутствует_плазма_мембранная часть некоторого эпсилона CD3) |
лимфоцит линии В = def. лимфоцит и (имеет_плазма_мембранную часть некоторой молекулы CD19) и (отсутствует_плазма_мембранная часть некоторого эпсилона CD3) |
||
+ | |||
Или другими словами: лимфоцит линии В - это лимфоцит, который имеет молекулы CD19 на своей плазматической мембране, но не имеет молекул CD3 на своей плазматической мембране. Здесь “лимфоцит” - это термин более высокого уровня, определенный в CL, “молекула CD19” и “молекула CD3” определены в PRO, а “плазматическая мембрана” определена в ветви клеточных компонентов генной онтологии. |
Или другими словами: лимфоцит линии В - это лимфоцит, который имеет молекулы CD19 на своей плазматической мембране, но не имеет молекул CD3 на своей плазматической мембране. Здесь “лимфоцит” - это термин более высокого уровня, определенный в CL, “молекула CD19” и “молекула CD3” определены в PRO, а “плазматическая мембрана” определена в ветви клеточных компонентов генной онтологии. |
||
+ | |||
Связи между клетками и белками обрабатываются путем построения связей между соответствующими онтологиями таким образом, что информация, собранная в каждой из этих онтологий, объединяется способами, полезными для рассуждения и интеграции. Таким образом, мы также избегаем некоторых опасностей, связанных с образованием "бункеров" — например, когда те, кто интересуется клетками, испытывают искушение разработать свою собственную локальную онтологию поверхностных маркеров белка, онтологию, которая не смогла бы взаимодействовать с другими информационными ресурсами белка. Обеспечение того, чтобы соответствующие онтологии предметной области с самого начала были структурированы на основе одной и той же онтологии верхнего уровня, облегчает приведение их в соответствие необходимым образом. |
Связи между клетками и белками обрабатываются путем построения связей между соответствующими онтологиями таким образом, что информация, собранная в каждой из этих онтологий, объединяется способами, полезными для рассуждения и интеграции. Таким образом, мы также избегаем некоторых опасностей, связанных с образованием "бункеров" — например, когда те, кто интересуется клетками, испытывают искушение разработать свою собственную локальную онтологию поверхностных маркеров белка, онтологию, которая не смогла бы взаимодействовать с другими информационными ресурсами белка. Обеспечение того, чтобы соответствующие онтологии предметной области с самого начала были структурированы на основе одной и той же онтологии верхнего уровня, облегчает приведение их в соответствие необходимым образом. |
||
+ | |||
Задача определения того, что должно быть представлено в онтологии, также будет зависеть от практических целей, которым должна удовлетворять онтология. Любая разработка онтологий (как и вся наука) в некоторой степени носит оппортунистический характер: какие части онтологии разрабатываются в первую очередь или с наибольшей детализацией, часто будет зависеть от доступного финансирования, и такое финансирование часто будет привязано к цели. Целенаправленная человеческая деятельность привлекает внимание к некоторым объектам и оставляет другие на заднем плане. Если наша задача состоит в том, чтобы поддержать научное исследование гипотезы, относящейся, скажем, к заболеваниям плода, связанным с лимфоцитами линии В, то сначала мы определим существующие онтологии с соответствующим содержанием. Но наше исследование может потребовать разработки совершенно новой онтологии, сосредоточенной строго на конкретных областях - например, на взаимодействиях между теми или иными конкретными типами клеток и молекул у тех или иных пациентов, проходящих те или иные виды лечения. |
Задача определения того, что должно быть представлено в онтологии, также будет зависеть от практических целей, которым должна удовлетворять онтология. Любая разработка онтологий (как и вся наука) в некоторой степени носит оппортунистический характер: какие части онтологии разрабатываются в первую очередь или с наибольшей детализацией, часто будет зависеть от доступного финансирования, и такое финансирование часто будет привязано к цели. Целенаправленная человеческая деятельность привлекает внимание к некоторым объектам и оставляет другие на заднем плане. Если наша задача состоит в том, чтобы поддержать научное исследование гипотезы, относящейся, скажем, к заболеваниям плода, связанным с лимфоцитами линии В, то сначала мы определим существующие онтологии с соответствующим содержанием. Но наше исследование может потребовать разработки совершенно новой онтологии, сосредоточенной строго на конкретных областях - например, на взаимодействиях между теми или иными конкретными типами клеток и молекул у тех или иных пациентов, проходящих те или иные виды лечения. |
||
+ | |||
Эти способы, с помощью которых цель может определять содержание онтологии, отражают различие, введенное в главе 2, между ссылочными онтологиями и онтологиями приложений. Эталонная онтология - это репрезентативный артефакт, аналогичный научной теории, в которой первостепенное значение имеют максимальная выразительная полнота и адекватность фактам реальности. Онтология приложения - это репрезентативный артефакт, предназначенный для оказания помощи в достижении некоторой конкретной цели. Справочные онтологии будут создаваться и структурироваться главным образом на основе установленного содержания научной дисциплины. Онтологии приложений будут создаваться и структурироваться в первую очередь с точки зрения того, что имеет отношение к какой-либо конкретной цели. Однако, чтобы быть успешными в долгосрочной перспективе, прикладные онтологии должны в максимально возможной степени использовать части эталонных онтологий в качестве отправных точек. Разработка прикладных онтологий, таким образом, может также принести пользу работе над справочными онтологиями, например, когда обнаруживается, что термины, созданные в рамках первых, имеют общенаучную значимость, например, тогда эти термины будут повышены до уровня, на котором они станут частью справочной онтологии, доступной для более общих целей. используйте. |
Эти способы, с помощью которых цель может определять содержание онтологии, отражают различие, введенное в главе 2, между ссылочными онтологиями и онтологиями приложений. Эталонная онтология - это репрезентативный артефакт, аналогичный научной теории, в которой первостепенное значение имеют максимальная выразительная полнота и адекватность фактам реальности. Онтология приложения - это репрезентативный артефакт, предназначенный для оказания помощи в достижении некоторой конкретной цели. Справочные онтологии будут создаваться и структурироваться главным образом на основе установленного содержания научной дисциплины. Онтологии приложений будут создаваться и структурироваться в первую очередь с точки зрения того, что имеет отношение к какой-либо конкретной цели. Однако, чтобы быть успешными в долгосрочной перспективе, прикладные онтологии должны в максимально возможной степени использовать части эталонных онтологий в качестве отправных точек. Разработка прикладных онтологий, таким образом, может также принести пользу работе над справочными онтологиями, например, когда обнаруживается, что термины, созданные в рамках первых, имеют общенаучную значимость, например, тогда эти термины будут повышены до уровня, на котором они станут частью справочной онтологии, доступной для более общих целей. используйте. |
||
Строка 130: | Строка 142: | ||
== Вывод == |
== Вывод == |
||
В этой главе мы представили некоторые общие принципы проектирования онтологий и представили обзор двух начальных этапов процесса построения онтологии, а именно: разграничение предметной области онтологии и сбор информации о предметной области. В следующей главе мы обсудим третий шаг процесса построения онтологии: регламентацию, которая более подробно рассматривает вопросы выбора терминологии, определения и классификации. |
В этой главе мы представили некоторые общие принципы проектирования онтологий и представили обзор двух начальных этапов процесса построения онтологии, а именно: разграничение предметной области онтологии и сбор информации о предметной области. В следующей главе мы обсудим третий шаг процесса построения онтологии: регламентацию, которая более подробно рассматривает вопросы выбора терминологии, определения и классификации. |
||
+ | |||
+ | = Принципы наилучшей практики II: Термины, определения и классификация = |
||
+ | |||
+ | Мы предполагаем, что, следуя рекомендациям, изложенным в главе 3, была определена соответствующая область применения онтологии и собрана соответствующая информация о предметной области. Мы также предполагаем, что конструктор онтологий создал черновой список терминов и связал их с первым черновым набором определений и предварительной иерархией is_a. Следующим шагом является использование этого списка терминов для систематизации информации о домене, в то же время позволяя улучшить понимание домена и внести улучшения в список терминов. Цель состоит в том, чтобы создать репрезентативный артефакт, который был бы настолько логически последовательным, недвусмысленным и соответствовал фактам реальности, насколько это возможно. |
||
+ | |||
+ | Существует три основных аспекта регламентации онтологий предметной области: терминологический, определительный и расположение в иерархии is_a. Мы рассмотрим каждый из этих вопросов по очереди, хотя читателю следует иметь в виду, что существует большая степень совпадения и взаимозависимости между тремя группами вопросов. |
||
+ | |||
+ | == Принципы терминологии == |
||
+ | === Соберите и выберите терминологию === |
||
+ | В главе 3 мы предположили, что хорошей отправной точкой для построения онтологии является создание набора терминов, выбранных из наиболее часто используемых терминов в стандартных учебниках и в соответствующих онтологиях предметной области. Первым и незаменимым шагом в любом проекте разработки онтологии является проведение должной проверки при выявлении существующего содержимого онтологии, имеющего отношение к поставленной задаче, и оценка этого содержимого на предмет возможного повторного использования, используя инструменты для поиска онтологий, такие как биопортал NCBO (http:// bioportal.bioontology.org ). |
||
+ | |||
+ | Результирующий список слов (или лучше: нарицательных имен и словосочетаний) формирует первый набросок того, что мы можем рассматривать как терминологию для рассматриваемой предметной области. Такая терминология уже может быть полезна для людей, например, для поддержки последовательного использования языка при обмене информацией. Для нас, однако, это имеет более амбициозную цель, которая заключается в том, чтобы дать возможность научной информации, с которой она связана, быть включенной в определенный тип компьютерного репрезентативного искусства, которым является онтология, и для этого потребуется специальная терминология. |
||
+ | |||
+ | Генная онтология (GO), безусловно, самая успешная онтология на сегодняшний день, была описана ее создателями как “контролируемый словарь”, который будет использоваться для регламентации способов описания информации о генных продуктах в различных модельных организмах. Проблема, для решения которой он был разработан, является общей для всей науки: там, где несколько дисциплинарных групп вовлечены в изучение какого-либо представляющего интерес научного явления, у каждой, скорее всего, будет свой собственный идиосинкразический словарь. Проблема в том, что существует слишком много терминов для целей успешного обмена информацией между дисциплинами. The GO представила стратегию решения этой проблемы путем распространения набора “предпочтительных терминов” для использования при описании атрибутов генных продуктов нейтральным с точки зрения вида образом. Затем кураторы литературы систематически используют предпочтительные термины для описания экспериментальных данных, появляющихся в опубликованных статьях. Затем эти данные становятся более легко извлекаемыми и комбинируемыми, что позволяет преодолеть проблемы, вызванные множеством конфликтующих словарей. |
||
+ | |||
+ | Успех GO во многом обусловлен тем фактом, что влияние его создателей было таково, что они смогли установить выбранные ими предпочтительные ярлыки в качестве аттракторов для большого числа пользователей в каждой из множества взаимодействующих дисциплин, изучающих множество различных видов организмов. Чтобы повторить этот успех, разработчикам онтологий сегодня необходимо найти способ выбора терминов, которые максимально приближены к фактическому использованию значительной части тех, кто работает в соответствующей области, не отталкивая тех, кто работает в этой области, чья устоявшаяся терминология предполагает использование других терминов. Эта цель может быть достигнута, частично, путем распространения выбранных предпочтительных меток, используя их при обработке больших массивов данных, полезных для более широкого сообщества, и - опять же, следуя практике, впервые внедренной GO, — путем включения специфичных для сообщества “синонимов” в онтологию наряду с предпочтительными метками. Таким образом, на начальном этапе из опыта GO можно извлечь три принципа построения терминологии:<br> |
||
+ | 1. Включите в терминологию термины, используемые влиятельными группами ученых для обозначения наиболее важных типов объектов в предметной области, которые должны быть представлены.<br> |
||
+ | 2. Стремитесь обеспечить максимальное согласие с терминологическим использованием ученых в соответствующей дисциплине. Это вполне может включать работу с экспертами в предметной области, например, при согласовании терминологических компромиссов.<br> |
||
+ | 3. Определите области совпадения дисциплин, в которых терминологическое употребление не согласовано. Ищите и отслеживайте синонимы для терминов, которые уже есть в списке терминологии из этих областей. |
||
+ | |||
+ | Только эта стратегия будет работать в тех случаях, когда пересекающиеся дисциплины отличаются лишь выбором слов для представления идентичных сущностей. Там, где терминология, используемая различными дисциплинами в таких пересекающихся областях, отличается более существенным образом, необходимо применять более сложные стратегии. Две онтологии могут, например, иметь дело с одними и теми же явлениями, но на разных уровнях детализации (например, молекула и клетка); или они могут отличаться тем, что одна онтология имеет дело с объектами, в то время как другая имеет дело с процессами; или один может иметь дело с объектами, в то время как другой имеет дело с изображениями объектов. |
||
+ | |||
+ | В таких случаях необходимо разработать несколько онтологий (или несколько ветвей одной онтологии), а соответствующие термины связать друг с другом посредством отношений и соответствующих определений и аксиом. Это действенные стратегии, поскольку мы имеем дело с областями устоявшейся науки, где мы можем предположить, что рассматриваемые дисциплины будут согласованы друг с другом в том, что касается их научного содержания. Часто оказывается возможным сформулировать правила сопоставления — аналогичные, например, правилам преобразования между различными системами научных единиц, — которые позволяют преобразовывать утверждения, сформулированные с использованием терминов из одной дисциплины, выбранных в качестве синонимов в онтологии, в утверждения, сформулированные с использованием терминов, выбранных в качестве предпочтительных меток. |
||
+ | |||
+ | Чего следует избегать любой ценой, так это создания совершенно новых выражений в качестве предпочтительных меток в онтологиях для представления сущностей, с которыми эксперты в предметной области уже знакомы под устоявшимися названиями. Точно так же онтологу следует избегать использования знакомых терминов с новыми и отличающимися значениями. Чтобы избежать путаницы как при кодировании информации в онтологии, так и при интерпретации такой информации конечными пользователями, терминологический выбор разработчиков онтологий предметной области должен быть максимально уважительным к текущей терминологии, использованию и практике современных экспертов в предметной области и потенциальных пользователей. Это приводит к четвертому принципу построения терминологии, который перекликается с принципом повторного использования из главы 3. |
||
+ | |||
+ | 4. Не изобретайте велосипед заново. При выборе термина придерживайтесь, насколько это возможно, рекомендаций реальных экспертов в предметной области. При построении терминологии и проектировании онтологий используйте как можно больше существующих ресурсов (терминологий и онтологий). |
||
+ | |||
+ | = Терминология форматирования = |
||
+ | == 5. Используйте существительные в единственном числе. == |
||
+ | Термины в онтологии должны, насколько это возможно, иметь грамматическую форму существительных в единственном числе или словосочетаний с существительными в единственном числе. |
||
+ | |||
+ | В пользу принятия этой конвенции говорят два рода причин. Во-первых (и это будет общим рефреном в дальнейшем, когда мы будем иметь дело с рекомендациями по синтаксису и терминологии), крайне важно, чтобы какой-то синтаксический стандарт, какое-то правило поведения были приняты и соблюдались всеми, кто участвует в построении онтологии, чтобы синхронизировать многочисленные подобные усилия выполняется параллельно в любой момент времени. Чтобы увидеть, что происходит, когда это правило не соблюдается, рассмотрим, например, случай mesh1, иерархия которого ''подразумевает отношения is_a, такие как''<br> |
||
+ | ''коммунизм is_a политические системы,''<br> |
||
+ | ''политические системы - это социальные науки,''<br> |
||
+ | ''социальные науки - это поведенческие дисциплины и виды деятельности,''<br> |
||
+ | ''поведенческие дисциплины и виды деятельности - это тематический дескриптор''<br> |
||
+ | и так далее. Смешанное использование существительных единственного и множественного числа может быть вполне уместно для таких целей, как составление библиотечных каталогов; однако это вызывает проблемы при составлении информации в форме, которая будет аргументирована. |
||
+ | |||
+ | Правило имен существительных в единственном числе было хорошо проверено на практике и дает простую и не требующую затрат форму синхронности. Существует также принципиальная причина настаивать на том, что все термины в онтологии должны иметь форму существительных единственного числа. Это связано с тем, что каждый такой термин предназначен для обозначения не какой-то множественной или собирательной сущности, а скорее либо универсальной, либо определенного класса. В любом случае его ссылка будет в единственном числе. Существует только один универсальный организм, даже если у него много экземпляров, и существует только один определенный класс причин дорожно-транспортных происшествий, даже если у него много и разнообразных членов.2 |
||
+ | |||
+ | == 6. Используйте строчный курсив для имен нарицательных. == |
||
+ | В соответствии с принципом 5 мы рекомендуем при подготовке содержимого онтологии для просмотра людьми использовать строчные курсивные буквы для терминов, относящихся к универсалиям или классам (эта рекомендация частично основана на том факте, что начальные заглавные буквы обычно используются в английском языке для обозначения имен собственных, которые являются названиями объектов). экземпляры (“Том”, “Сиэтл”, “Юпитер”). Таким образом, cat, а не “Кот” или “КОШЕЧКА”, и эукариотическая клетка, а не “Эукариотическая клетка” или “ЭУКАРИОТИЧЕСКАЯ КЛЕТКА”. |
||
+ | Некоторые программы редактирования онтологий требуют использования подчеркивания (eukaryotic_cell) или одинарных кавычек (‘эукариотическая клетка’) или регистра camel (eukaryoticCell), чтобы компьютер мог идентифицировать начала и окончания именных фраз. Какое бы правило дорожного движения ни было выбрано в этом отношении, главная цель состоит в том, чтобы обеспечить последовательное соблюдение соглашения — опять же по соображениям координации между онтологиями. |
||
+ | |||
+ | == 7. Избегайте сокращений. == |
||
+ | Избегайте, насколько это возможно, использования сокращений при формулировании терминов онтологии. Обоснование этого заключается в том, что акронимы и аббревиатуры слишком легко создавать локально — часто, например, разработчиками баз данных просто для того, чтобы заголовки всех столбцов поместились на одном экране. Период полураспада аббревиатур может быть очень коротким, и нет ничего необычного в том, что те, кто работает с базами данных (иногда даже сам создатель базы данных) забывают, что первоначально означали их аббревиатуры. Цель онтологии, напротив, состоит в создании стандартных терминологий, которые могут использоваться и на которые может положиться любой — в настоящем и в будущем — работающий в данной дисциплине. Некоторые сокращения и связанные с ними выражения в некоторых научных идиоматиках стали частью языка, как, например, в таких терминах, как “ДНК”, “СПИД” или “АТФаза”; таким образом, они стали защищены от возможности повторного использования новыми группами исследователей с разными значениями. Однако, за исключением таких случаев, при выборе первичной метки для записи в онтологии в каждом случае следует использовать полное существительное или словосочетание нарицательного. |
||
+ | |||
+ | == 8. Свяжите каждый термин в онтологии с уникальным буквенно-цифровым идентификатором. == |
||
+ | Идентификатор связан с термином в данной версии онтологии. Всякий раз, когда онтология пересматривается и публикуется в новой версии, при условии, что рассматриваемый термин не изменен в этой редакции, его идентификатор может быть сохранен без изменений. Идентификаторы необходимы для компьютерных целей — они, например, лягут в основу универсальных идентификаторов ресурсов, с помощью которых термины онтологии будут идентифицироваться в веб-системах. На рисунке 4.1 представлен снимок экрана фрагмента Protein Ontology (PRO), который иллюстрирует рекомендуемый нами подход.3 |
||
+ | |||
+ | В верхней части иерархии на рисунке 4.1 находится запись “аминокислотная цепь”. Щелчок по записи приведет пользователя к удобочитаемому определению термина вместе с другой информацией о нем. Слева от термина находится его буквенно-цифровой идентификатор PR:000018263, который однозначно определяет местоположение этого термина в структуре PRO для целей компьютерного программирования и используется также при создании перекрестных ссылок из других онтологий и баз данных обратно в PRO. Идентификатор будет связан не только с термином, но и с его уникальным понятным человеку определением (для целей построения, сопровождения и использования онтологии людьми), а также с логически формализованной версией этого определения. |
||
+ | |||
+ | == 9. Обеспечьте однозначность терминов. == |
||
+ | Термины должны иметь одинаковое значение при каждом использовании. В онтологии “клетка” всегда должна относиться к универсальной клетке, “рак” всегда к универсальному раку и так далее. Принцип однозначности при разработке терминологии онтологии трудно соблюдать, поскольку он так регулярно нарушается как в обычном, так и в научном (и клиническом) языке. Это происходит, прежде всего, из-за неоднозначных выражений, включая само слово “клетка”, которое имеет не только биологическое значение, но и (родственные) значения по отношению, например, к тюремным камерам или ячейкам в электронной таблице. Более важная причина, однако, заключается в том факте, что отклонения от однозначности происходят из-за склонности людей использовать многоточие в местных условиях (например, использовать “третье левое бедро” для обозначения пациента с переломом бедра, лежащего на третьей койке в левой части палаты). Причина, по которой мы настаиваем на однозначности в контексте проектирования онтологий, довольно проста. Если один и тот же термин используется по-разному в разных контекстах, то люди, участвующие в построении онтологии, с большей вероятностью допускают ошибки. Онтологии, конечно, разрабатываются в первую очередь для использования компьютерами, и там проблемы неоднозначности устраняются за счет использования уникальных буквенно-цифровых идентификаторов для каждого термина онтологии. Однако по-прежнему важно усердно работать над тем, чтобы избежать отклонений от однозначности, поскольку опыт показывает, что такие отклонения являются источником человеческих ошибок при разработке и обслуживании онтологии. |
||
+ | |||
+ | Здесь следует отметить, что принцип однозначности конкретно гласит, что каждый термин в онтологии должен иметь ровно одно значение. Мы не исключаем присутствия в онтологии нескольких терминов, имеющих одинаковое значение, но это всегда должно происходить путем объявления одного такого выражения предпочтительным термином, с которым затем могут быть связаны синонимы в соответствии с терминологическими потребностями различных сообществ, использующих онтологию. |
||
+ | |||
+ | Примером нарушения принципа однозначности является трактовка термина “прогрессирование заболевания” в тезаурусе Национального института рака [NCI] (версия от 2 августа 2004 г.), в котором предлагались три различные возможные интерпретации:<br> |
||
+ | (I) Рак, который продолжает расти или распространяться;<br> |
||
+ | (II) Увеличение размера опухоли или распространение рака в организме;<br> |
||
+ | (III) Обострение заболевания с течением времени. Эта концепция чаще всего используется для хронических и неизлечимых заболеваний, где стадия заболевания является важным фактором, определяющим терапию и прогноз.4 |
||
+ | |||
+ | В определениях (I) и (II) “прогрессирование заболевания” - это то, что касается только рака; однако в определении (III) “прогрессирование заболевания” включает ухудшение любого заболевания с течением времени. В третьем определении также “прогрессирование заболевания” определяется как “концепция”, а не как процесс. Это определение также содержит пункт, описывающий, как часто используется этот термин. Такая информация может быть включена в комментарий, связанный с рассматриваемым термином; однако по логическим соображениям ее не следует включать в само определение.5 |
||
+ | |||
+ | Обратите внимание, что выявленные проблемы все еще сохраняются в текущей версии тезауруса NCI (30 июня 2014 г.), где у нас есть, например, два термина “ячейка”, определяемые как означающие “любой небольшой отсек” и как “отдельная единица, из которой состоят все ткани". из тела.” Утверждается, что первый является подтипом “концептуальной сущности”; второй - “микроанатомической структуры”6. |
||
+ | |||
+ | == 10. Обеспечьте однозначность реляционных выражений. == |
||
+ | Однозначность применима также к реляционным выражениям, используемым в иерархиях онтологий, например, is_a и part_of. Ранние годы разработки онтологии были отмечены феноменом “перегрузки is_a”, при котором “is_a” могло означать в разных контекстах либо подкласс, либо экземпляр, либо некоторую запутанную смесь того и другого.7 Аналогично, “A part_of B” иногда использовалось для обозначения того, что все As являются частью некоторого B, все Bs имеют некоторое A в качестве части, некоторые As имеют некоторое Bs в качестве части, или снова некоторая запутанная смесь всего этого.8 Более подробную информацию о том, как должны быть решены эти проблемы, смотрите в главе 7. |
||
+ | |||
+ | == 11. Избегайте массовых существительных. == |
||
+ | С проблемой однозначности связано основное различие между существительными со счетом и существительными с массой. Счетные существительные, такие как “кошка”, “лепесток” и “клетка”, относятся к универсалиям, экземпляры которых можно подсчитать. Таким образом, можно задать сколько угодно вопросов (сколько кошек в этом здании?, сколько лепестков на этом цветке? и так далее). Такие термины, как “вода”, “ткань”, “мясо” и “химическое вещество”, часто используются в качестве массовых существительных. Это означает, что они используются для выделения или обозначения более или менее неопределенного количества материала. Можно спросить, сколько воды, мяса или химического вещества содержится, например, в данном контейнере; но нельзя, без дополнительных уточнений, сколько воды, тканей, мяса. Скорее, мы спрашиваем: “сколько там стаканов воды?”, “сколько там кусков мяса?”, “сколько там литров молока?” и так далее. Однако теперь мы заменили исходное существительное mass существительным count (точнее, словосочетанием count noun), чтобы гарантировать, что действительно будут отдельные порции материала, которые можно подсчитать. |
||
+ | |||
+ | Конечно, существуют осмысленные предложения, включающие существительные массового употребления, которые не были преобразованы таким образом в существительные-счетчики, например, когда медсестре дается указание хранить салфетки в морозилке или брать кровь у пациента. Размышление, однако, показывает, что соответствующее преобразование здесь все еще выполняется — даже если и не явно. Это происходит потому, что понятны соответствующие количества или контейнеры. Более того, в различных контекстах такие термины, как “кровь”, могут использоваться для обозначения не просто какого-то определенного количества крови пациента, но произвольной порции или максимальной порции крови в организме пациента и так далее — и “произвольная порция крови”, и “максимальная порция крови” тоже вполне приемлема с точки зрения принципа “избегайте массовых существительных”. Еще одна причина для продвижения этого принципа связана с неопределенностями, возникающими из-за того факта, что такие термины, как “кровь”, “ткань”, “вода”, “мясо” или “аспирин”, часто используются для обозначения типов, а не конкретных порций рассматриваемых веществ. Эти двусмысленности имеют особое значение для разработчиков онтологий, поскольку именно на разделении между типами (универсалиями) и экземплярами (частностями) основана онтология. |
||
+ | |||
+ | Очевидно, что массы веществ различных типов действительно существуют в реальности — но на уровне экземпляров они всегда существуют в больших или малых количествах. Таким образом, не существует сахара без определенной порции сахара; нет багажа без определенного количества чемоданов и других предметов багажа. Кроме того, массы веществ существуют на разных уровнях детализации: таким образом, масса ткани организма в одно и то же время является совокупностью клеток. |
||
+ | |||
+ | Подводя итог: массовое существительное, такое как “ткань”, может использоваться для обозначения одного или нескольких из следующих:<br> |
||
+ | • часть вещества внутри большей части вещества (ткань внутри органа, из которого врач намеревается взять образец);<br> |
||
+ | • дискретная (отделенная) часть материала (например, ткань, которая была выращена независимо для того, чтобы быть помещенной внутрь органа);<br> |
||
+ | • рассматриваемый тип ткани (легочная ткань по сравнению с мышечной тканью, здоровая ткань по сравнению с раковой тканью); и<br> |
||
+ | • максимальное или полное количество вещества (например, вся ткань, составляющая печень). |
||
+ | |||
+ | Эти различные значения термина “ткань” задействованы в совершенно разных теоретических и практических контекстах, и поэтому важно разделять их для целей проектирования онтологии. И даже если бы только одно такое использование массового существительного, такого как “ткань”, было выбрано в качестве предпочтительного обозначения в онтологии, упомянутые двусмысленности все равно привели бы к проблемам неправильного использования этого термина людьми. Именно по этой причине мы рекомендуем полностью избегать массовых существительных при построении онтологий. Вместо этого следует использовать фразы, начинающиеся с соответствующего префикса (например, “часть”, “максимальная часть” и так далее). Это решение было использовано, например, онтологией FMA, которая является ведущим ресурсом для терминов, относящихся (среди прочего) к различным тканям и другим типам веществ организма.9 |
||
+ | |||
+ | Чтобы добиться такого упорядочения, мы рекомендуем преобразовать существительные с массой, такие как “химическое вещество”, в существительные со счетом, добавив в начало “часть” или какой-либо соответствующий контексту эквивалентный оператор; таким образом, “часть химического вещества”, “часть ткани” и так далее. Принятие этой стратегии позволяет рассматривать кажущиеся массовыми существительные как экземпляры либо фиксированных частей, либо агрегатов объектов (см. главу 5). Основная идея, однако, заключается в том, что, поскольку массовые существительные относятся к разным типам сущностей в разных случаях использования, их следует избегать в пользу более онтологически прозрачной терминологии. |
||
+ | |||
+ | == 12. Отличайте общее от частного. == |
||
+ | До этого момента мы подчеркивали, что онтология - это представление универсалий и определенных классов. Конкретные объекты — экземпляры универсалий и члены определенных классов — рассматриваются, например, в базах данных, клинических записях или журналах экспериментов. Для нас это вопрос определения слова “онтология”.- несомненно, есть те, кто строит онтологии, включающие смесь терминов, представляющих отдельных людей — например, Стандартизированная номенклатура медицины (SNOMED) включает термин “Национальная спиритуалистическая церковь”, который в ней рассматривается как подкласс духовных или религиозных убеждений.10 Наши причины настаивать на том, что онтологии должны быть ограничены исключительно представлениями о том, что является общим, многообразны, но на данный момент будет достаточно упомянуть только одну, которая слишком хорошо иллюстрируется только что упомянутым примером из SNOMED. А именно, что отступление от этого принципа часто связано с совершением ошибок: церковь, как бы ее ни понимали (будь то как организацию или как здание), не является особым видом верования, как того хотел бы СНОУМЕД11. |
||
+ | |||
+ | Там, где онтология должна быть дополнена терминами, представляющими индивидов, тогда это должно быть в каком—то отдельном информационном артефакте - соответствующем различию в сообществе логики описания между T-box (для “терминологии”) и A-box (для “утверждений”).12 Эти два артефакта могут быть объединены для практических целей везде, где это необходимо, образуя то, что некоторые называют “базой знаний”. Но результатом является — опять же по причинам определения — не онтология, не более чем описание или иллюстрация- описание того, как научная теория была применена в конкретной серии экспериментов, само по себе является научной теорией. |
||
+ | |||
+ | Термины, относящиеся к универсалиям, и термины, относящиеся к примерам, должны быть четко разграничены. Например, нарицательное существительное “чайник” в том виде, в каком оно встречается в таком предложении, как “чайник - это устройство для розлива чая”, вполне вероятно, может быть понято как относящееся к типу или универсальному чайнику. Термин “чайник” в том виде, в каком он встречается в предложении “У Джона украли чайник”, следует понимать как относящийся к одному конкретному чайнику.13 |
Текущая версия на 22:31, 8 июля 2023
Данный материал написан по материалам книги "Building ontologies with Basic Formal Ontology" (Arp, Robert ; Smith, Barry & Spear, Andrew D. (2015). Building Ontologies with Basic Formal Ontology. Cambridge, MA: MIT Press)
Принципы наилучшей практики I: Проектирование онтологии предметной области
В главах 1 и 2 онтология была определена как репрезентативный артефакт, представления которого предназначены для обозначения универсалий, определенных классов и отношений между ними. Мы также ввели некоторые различия между различными типами онтологий и представили идею таксономии как центрального компонента онтологии. В свете всего этого проблема проектирования онтологии - это проблема проектирования формализованного репрезентативного артефакта, включающего таксономическую иерархию в качестве основы, чьи представления (термины) обозначают универсалии, определенные классы и отношения между ними. В этой и следующей главах мы обсудим, как этот процесс выглядит на практике, сосредоточив внимание на соображениях и принципах, связанных с разработкой справочных онтологий предметной области, полезных для поддержки научных исследований. Вопросы, которые будут рассмотрены в этой главе, включают в себя: предмет и область применения онтологии предметной области, а также первые шаги, которые следует предпринять при разработке самой онтологии.
Общие принципы проектирования онтологий
Сначала мы изложим принципы, определяющие общее отношение или мировоззрение, которые следует иметь в виду при разработке онтологии. Наша позиция заключается в том, что хорошей онтологией будет та, которая разработана таким образом, чтобы соблюдать эти принципы, и что, действительно, соблюдение этих принципов будет частью того, что делает онтологию хорошей.
1. Реализм
Мы уже обсуждали нашу приверженность реализму в главе 1. В целом, “реалистизм” можно определить как философскую позицию, согласно которой реальность и ее составляющие существуют независимо от наших (лингвистических, концептуальных, теоретических, культурных) представлений и могут быть познаны, например, посредством перцептивного опыта и применения научного метода. Цель науки, с этой реалистической (и, как мы полагаем, здравомыслящей) точки зрения, состоит в том, чтобы открывать истины о реальности. Реализм в онтологии также основан на идее о том, что с помощью науки мы можем познать общие черты реальности в виде универсалий и отношений между ними. Этот реалистический подход имеет ряд общих последствий. Во-первых, это подразумевает, что онтологии являются репрезентациями реальности, а не концепциями людей, ментальными репрезентациями или использованием языка. Конечно, онтология, например, когнитивной психологии или лингвистики, может содержать концепции, ментальные репрезентации или способы использования языка в рамках своего предмета. Но тогда последние рассматривались бы как части реальности в точности аналогично тому, что имеет место, например, в онтологии астрофизики или в развитии растений. Многие разделы науки относятся к сущностям, таким как химические элементы, клетки прокариот или горные породы палеопротерозоя, которые существовали задолго до появления первых людей. Другие разделы науки относятся к сущностям — например, в области права или экономики, — которые существуют в результате человеческой мысли и деятельности. Онтологический реализм в равной степени применим ко всем отраслям науки, исходя из того, что, например, обеспеченные долговые обязательства не менее реальны, чем электроны и планеты.
2. Перспективизм
Цель науки состоит не просто в том, чтобы открывать истины о реальности. Его цель - разработать теории, которые были бы настолько точными, настолько широкомасштабными, настолько прогнозирующими, настолько объясняющими, настолько логически последовательными и настолько хорошо проверенными, насколько это возможно. К сожалению, эти цели — и ряд других целей, которые также считаются привлекательными, таких как максимальное соответствие здравому смыслу, — по-видимому, не могут быть реализованы одновременно. Чтобы справиться с этим фактом, мы придерживаемся доктрины перспективизма. Перспективизм проистекает из признания того, что реальность слишком сложна и разнообразна, чтобы охватить ее во всей полноте в рамках одной научной теории. Это сводится к принципу, согласно которому две различные научные теории могут быть одинаково точными представлениями об одной и той же реальности. Это, конечно, не означает, что все представления, созданные учеными, имеют равную ценность. Точка зрения, согласно которой рыбы являются млекопитающими, явно имела бы меньшую ценность, чем противоположная точка зрения, поскольку она была бы менее точной по отношению к фактам реальности. Но, тем не менее, существует множество различных репрезентаций, которые являются одинаково хорошими (истинными, достоверно подтверждаемыми) репрезентациями некоторой данной части реальности именно потому, что они отражают различные особенности этой реальности. Наиболее очевидные примеры различных, но одинаково обоснованных точек зрения на одну и ту же область реальности связаны с феноменом детализации. Проще говоря, одинаково правомерно изучать живые организмы как с точки зрения молекулярной биологии, так и с точки зрения, учитывающей анатомию и физиологию на уровне органов и систем органов. Одинаково правомерно рассматривать человеческое поведение как с точки зрения физики сенсомоторной системы человека, так и с точки зрения экономических стимулов. Каждая из упомянутых точек зрения может внести свой вклад в наши знания о реальности, которые точно соответствуют текущей реальности. Последствия перспективизма для онтологии заключаются в том, что несводимость различных точек зрения должна соблюдаться также при проектировании онтологий. Разработчики онтологий не должны стремиться представить все части и особенности реальности в единой онтологии, а должны стремиться, скорее, к модульному подходу, при котором каждый модуль поддерживается, насколько это возможно, экспертами в соответствующей научной дисциплине.
3. Фаллибилизм
Фаллибилизм предполагает приверженность идее о том, что, несмотря на то, что наши современные научные теории являются лучшим имеющимся у нас источником утверждений, которые являются кандидатами на выражение истин о реальности, тем не менее, возможно, что некоторые из этих утверждений ложны. Реальность существует независимо от наших способов ее научного понимания, и опыт подсказывает нам, что даже наши лучшие современные теории могут подвергаться корректировке. Таким образом, хотя реалист считает, что наш опыт, идеи и научные теории относятся к реальности — что они в совокупности образуют представление, карту или картинку реальности, — это не означает, что все элементы этой карты верны; некоторые элементы могут неправильно соотноситься, некоторые могут вообще не соотноситься все. Наша карта реальности на любом данном этапе всегда является лишь частичной: реальность никогда не раскрывается ученым во всей своей полноте. И поскольку наше представление постоянно расширяется по мере того, как мы узнаем и открываем для себя больше о том, что существует по ту сторону реальности, то, во что мы верим сегодня, основываясь на том, что мы узнали о тех аспектах реальности, к которым мы до сих пор имели доступ, иногда подрывается тем, что мы узнаем завтра о тех аспектах реальности, которые существовали до сих пор. недооцененный. Процесс корректировки нашей карты реальности сам по себе подвержен множеству различного рода неудач и изменений направления, некоторые (немногие) из которых могут быть радикальными по своей природе (двумя выдающимися примерами являются коперниканская и дарвиновская революции в физике и биологии). Однако, несмотря на все эти изменения и даже на самые радикальные научные революции, основные справочные элементы этой карты остаются нетронутыми. Ученые ошиблись, полагая, что солнце вращается вокруг земли; но, исправив эту ошибку, они продолжали использовать такие термины, как “солнце” и “земля”, для обозначения тех же сущностей, что и раньше. Нечто подобное применимо к таким общим терминам, как “атом”, “звезда”, “организм”, “клетка” и “планета”. Хотя наши представления об этих сущностях менялись со временем, сами эти термины в значительной степени сохранили свое значение благодаря таким изменениям. Однако в то же время фаллибилист признает, что и в отношении общих терминов наши научные знания со временем могут быть перевернуты новыми эмпирическими открытиями, как, например, в уже упомянутом случае с “флогистоном”. Некоторые конкретные последствия фаллибилизма для проектирования онтологий в поддержку научных исследований включают следующее: 3а. Что каждая онтология должна иметь сложные стратегии для отслеживания успешных версий онтологии. Новая версия онтологии становится необходимой, когда обнаруживаются и исправляются ошибки в текущей научной теории предметной области и когда обнаруживается новая информация, относящаяся к предметной области. Пользователи онтологии должны иметь возможность отслеживать такие изменения. 3b. Что каждая онтология должна иметь службу отслеживания для своих пользователей, которая позволит им легко указывать на ошибки и пробелы в онтологии и своевременно рассматривать их заявки в эту службу. Как и сама наука, проектирование онтологий - это непрерывное коллективное предприятие, в котором ошибки могут быть обнаружены и предотвращены с помощью ввода и тестирования нескольких человек.
4. Адекватность
В философских кругах широко распространена тенденция рассматривать цель философии в редукционистских терминах. С этой точки зрения задача философа состоит в том, чтобы объяснять сложные явления, сводя их к более простым и фундаментальным компонентам, опираясь при этом на поразительные успехи современной физики. Адекватизм - это противоположная тенденция, которая утверждает, что сущности в любой данной области следует воспринимать серьезно на их собственных условиях и что в нашем наборе теорий реальности должно быть место для всех различных видов сущностей, которые содержит реальность, на всех уровнях детализации. Для адекватиста все научные дисциплины, на первый взгляд, одинаково ценны в плане представления того, что существует в реальности. Точно так же, как онтология физики посвящена, например, атомам и субатомным частицам, а онтология химии - химическим элементам и соединениям и связанным с ними реакциям, так и онтология биологии будет включать представления универсалий и определенных классов на различных уровнях детализации от молекул и клеток до органов и систем. организмы, а оттуда - популяции и экосистемы. Цель онтологии, с точки зрения сторонника адекватизма, состоит в том, чтобы отдать должное огромному множеству различных видов сущностей, существующих в мире, вместо того, чтобы игнорировать те или иные конкретные виды сущностей или пытаться их объяснить. Именно адекватистский взгляд на онтологию отстаивается в дальнейшем. Предположим, например, что нужно создать онтологию для данной предметной области, поскольку эта предметная область описана в учебниках по какой-либо данной научной дисциплине. Онтология должна быть разработана таким образом, чтобы представлять типы сущностей, описанные в учебниках; но она должна делать это таким образом, чтобы ее можно было связать с другими онтологиями, охватывающими соседние домены, включая домены, распознающие сущности на разных уровнях детализации. Подразумевается, что онтологии не должны разрабатываться изолированно друг от друга, а скорее всегда в тандеме с онтологиями, с которыми они должны взаимодействовать. В более общем плане, адекватная структура для разработки онтологии должна допускать сущности на нескольких уровнях детализации (как, например, в биологии, где адекватная общая структура должна допускать — по крайней мере — молекулы, клетки, органы, организмы и популяции) и множество различных видов отношений между сущности на этих разных уровнях.
Дополнительные принципы проектирования онтологий
В то время как вышеприведенные четыре принципа представляют собой общие теоретические точки зрения на проектирование онтологий, следующие четыре являются более конкретными рекомендациями, касающимися самого процесса проектирования.
5. Принцип повторного использования
Онтологам не следует изобретать велосипед заново. Первым шагом в разработке онтологии всегда должно быть изучение существующих ресурсов онтологии в предметной области и вокруг нее, чтобы определить уже доступный контент, соответствующий научным и онтологическим стандартам. Онтологии должны повторно использовать, насколько это возможно, релевантный онтологический контент, который уже был создан; и даже там, где этот контент не может быть использован повторно, его следует рассматривать как формирующий эталон, который можно использовать для оценки адекватности создаваемого нового контента. Онтологии предназначены для поддержки связи между информационными ресурсами, относящимися к множеству областей реальности и к множеству дисциплин, которые стремятся их описать. В этом отношении их можно сравнить с системами автомобильных дорог. Очень редко случается так, что правильное решение онтологической проблемы эквивалентно игнорированию всех уже существующих дорог и созданию совершенно новой системы автомобильных дорог с нуля. В то же время, однако, следует подчеркнуть, что — именно потому, что онтологи так часто игнорировали принципы проектирования, подобные представленным здесь, и потому, что они сами часто создавали новые онтологии с нуля - большая часть доступного контента онтологий низкого качества, и поэтому должная осмотрительность требуется не только в выявление потенциальных онтологий для повторного использования, а также оценка идентифицированных онтологий (и в некоторых случаях рекомендация исключить их из дальнейшего использования).
6. Процесс проектирования онтологии должен обеспечивать баланс между полезностью и реализмом
Следствием реализма является то, что некоторые репрезентативные схемы лучше других, потому что они лучше отражают реальность. Учитывая, что некоторые корни построения онтологий лежат в области того, что иногда называют инженерией знаний, где преобладают сугубо практические мотивы, часто утверждается, что онтологии следует измерять не этим глобальным стандартом адекватности реальности — стандартом, адаптированным из области науки в целом, — а скорее по их полезности для какой-то конкретной местной цели. Однако, с нашей точки зрения, этот акцент на локальной полезности понимается неправильно, если он рассматривается как предполагающий принесение в жертву адекватности реальности, для представления которой конструируется онтология. Ибо именно эта реальность — как описано в лучших современных научных изданиях — обеспечивает общий ориентир, который может гарантировать согласованную разработку онтологий. Онтологии действительно могут быть разработаны в отсутствие такого эталона, но тогда, когда они используются для аннотирования данных, результаты невозможно будет объединить - за исключением, возможно, значительных ручных усилий — с данными, собранными другими пользователями в соседних доменах. Один из уроков, извлеченных из более чем пятнадцатилетнего опыта работы с онтологией генов, заключается в том, что цель, для которой изначально создается онтология, может существенно отличаться от того, что оказывается важным вторичным использованием, которого нельзя было предвидеть, когда онтология была впервые задумана.
7. Процесс проектирования Онтологии Является открытым
Рассмотренные до сих пор принципы обеспечивают основу для понимания еще одного важного аспекта проектирования онтологий: разработка онтологии предметной области, по крайней мере, в научных областях, представляющих для нас здесь первостепенный интерес, является лишь первым шагом в открытом процессе постоянного поддержания, оценки, обновления и корректировки онтологии, и адаптации онтологии к соседним онтологиям, чтобы учитывать достижения как в области научных знаний, так и в наших знаниях об онтологии и связанных с ней логических и вычислительных технологиях. Реализм подразумевает, что главной целью хорошей онтологии в поддержку научных исследований является адекватное представление реальности. Но это также подразумевает, что в научных областях мы на любом данном этапе почти всегда располагаем лишь частичной информацией о рассматриваемой реальности. Таким образом, наша стратегия навязывает нам принцип, согласно которому онтологии должны разрабатываться таким образом, чтобы их можно было расширять и изменять с течением времени, и принципы наилучшей практики, которые мы будем обсуждать далее, предназначены для достижения этой цели. Обратите внимание, что это правило согласуется с тем фактом, что у разработчика онтологий будут практические ограничения, вытекающие из того факта, что ресурсы для заполнения онтологии ограничены экономическими и другими обстоятельствами. Ибо, хотя те ветви онтологии, которые связаны с наиболее неотложными потребностями, будут разработаны наиболее детально, совокупность таких ветвей будет более полезной, если управлять ею в рамках общей структуры, которая может обеспечить согласованную совокупность соседних ветвей в будущем.
8. Принцип низко висящих плодов
Последний общий принцип, который следует иметь в виду, заключается в следующем: при разработке онтологии предметной области начните с определения тех характеристик предметной области, которые являются наиболее простыми и ясными для понимания и определения. Другими словами, онтолог должен начать со сбора низко висящих плодов с дерева онтологии, включая то, что для человека может показаться тривиальными утверждениями (например, клеточная мембрана - это мембрана), но что для компьютеров, которые будут обрабатывать онтологию, является незаменимым. При построении онтологии предметной области мы начинаем с классификации простых универсалий и отношений в первую очередь. Как правило, разработчик онтологии должен начать с определения общих терминов, наиболее часто используемых в начальных главах соответствующих вводных учебников, и двигаться дальше, шаг за шагом, к представлению более сложных сущностей в предметной области. Принципы проектирования онтологий, которые были рассмотрены до этого момента, кратко изложены во вставке 3.1.
Общие принципы проектирования онтологий |
---|
1. Реализм: цель онтологии - описать реальность. 2. Перспективизм: существует множество точных описаний реальности. |
Обзор процесса проектирования онтологии предметной области
Онтология - это нисходящий подход к проблеме электронного управления научной информацией. Это означает, что онтолог начинает с теоретических соображений очень общего характера, исходя из предположения, что отслеживание более конкретной информации (например, о конкретных органах, генах или заболеваниях) требует правильного понимания очень общей научной структуры, лежащей в основе этой информации, и делает это систематически и связно мода. Только после того, как это будет сделано, подробное терминологическое содержание конкретной науки, такой как клеточная биология или иммунология, может быть закодировано таким образом, чтобы обеспечить широкую доступность и удобство использования. Метод, которому следует следовать при построении онтологии предметной области на основе этой общей отправной точки, можно кратко изложить в шагах, описанных в таблице 3.1.
Краткое описание шагов, которым необходимо следовать при разработке онтологии предметной области |
---|
1. Разграничьте предмет онтологии. |
2. Соберите информацию: определите общие термины, используемые в существующих онтологиях и в стандартных учебниках; проанализируйте, чтобы устранить избыточность. |
3. Расположите эти термины в иерархии более и менее общих. |
4. Зафиксируйте результат, чтобы обеспечить: a. логическая, философская и научная согласованность, |
5. Формализуйте регламентированный репрезентативный артефакт на языке, пригодном для использования компьютером, таким образом, чтобы результат мог быть реализован в некоторой вычислимой структуре. |
Шаг 1 состоит из определения и разграничения предметной области онтологии, которую необходимо создать. Это будет включать в себя установление характера и объема данных (например, экспериментальных или клинических), которые необходимо аннотировать, и идентификацию существующего содержимого онтологии в соответствующих доменах. Первоначальный обзор содержания соответствующей науки должен дать предварительные ответы на следующие вопросы:
• Каковы универсалии предметной области и отношения, которые необходимо представить?
• Какие подходящие термины, относящиеся к конкретной предметной области, следует использовать для представления этих универсалий и отношений?
• Какие уровни детализации сущностей являются характерными для онтологии?
Шаг 2 - это задача собрать подборку (около пятидесяти) наиболее распространенных терминов весьма общего характера, некоторые из них взяты из соответствующих онтологий, некоторые из стандартных учебников.
Шаг 3 представляет собой предварительное упорядочение этих терминов в иерархии более и менее общих и служит предшественником шага 4.
Шаг 4 состоит в работе над этой иерархией для обеспечения согласованности, например, путем добавления дополнительных терминов для обеспечения полной таксономической иерархии онтологии; и идентификации терминов, относящихся к универсалиям самого высокого уровня в рассматриваемой предметной области, которые будут служить корневым узлом или узлами онтологии разрабатывается. Это также будет включать в себя создание набора понятных человеку определений для выбранных терминов, что будет включать сбор дополнительной информации о наиболее важных универсалиях предметной области, которые охватываются этими универсалиями самого высокого уровня, и идентификацию любых соответствующих терминов в соседних онтологиях, которые понадобятся при формулировании из определений. Начиная с корневых узлов и двигаясь вниз, мы пытаемся определить последовательные роды и отличительные характеристики, которые необходимо будет включить в определения сущностей, подлежащих включению в онтологию; и мы корректируем нашу предварительную схему классификации в свете любых изменений, которые диктуют наши определения.
Процесс регламентации является итеративным и будет включать последовательные циклы проверки версий иерархии терминов и определений на предмет логической, философской и научной адекватности, включая последовательность и понятность для человека, а также обеспечение того, чтобы в результате не были упущены какие-либо существенные элементы предметной области.
Как только таким образом будет достигнуто полное понимание предметной области, этап 5 - это задача итеративного кодирования онтологии посредством логической формализации. Это достигается путем преобразования определений терминов на естественном языке, содержащихся в онтологии, в формат, пригодный для использования на компьютере, с использованием инструмента редактирования онтологии.
Хотя процесс из пяти шагов по своей природе является нисходящим, работая от очень общих к последовательно менее общим терминам в онтологии, на практике он будет включать в себя большое количество циклов обратной связи между последовательными шагами. В следующих разделах мы более подробно обсудим процессы демаркации и сбора информации. В главе 4 мы рассмотрим проблему регламентации, а к вопросам кодирования вернемся в главе 8.
Явно определите предметную область онтологии предметной области
Первым шагом в построении онтологии предметной области является явное определение предполагаемой области применения онтологии, то есть ответ на вопрос: “К какой части реальности относится эта онтология?” Предоставление явного описания этой области будет служить для указания как того, что должно быть включено, так и того, что должно быть исключено из предполагаемой онтологии. Например, документация к Основополагающей модели анатомии (FMA), онтологии анатомии человека, описывает онтологию как “строго ограниченную ”чистой" анатомией, то есть структурной организацией тела"1. Это утверждение проясняет, какие термины являются кандидатами для включения в FMA, но также и то, какие термины следует исключить: те, которые относятся, например, к функциональной анатомии или хирургической анатомии. Спецификация области применения также будет указывать уровень или уровни детализации реальности, в соответствии с которыми откалибрована онтология. Будут ли это многоклеточные организмы, или органы, или клетки, или клеточные компоненты, или молекулы? Или, возможно, это будут целые популяции организмов? Или это будет какая-то комбинация уровней, как в онтологии, которая имеет дело с клеточной сигнализацией и, следовательно, должна представлять, например, как клетки, так и сигнальные пути?
Предметная область и онтологии верхнего уровня
Мы видели, что для целей успешного управления научной информацией в долгосрочной перспективе корневой узел или узлы онтологии предметной области должны быть определены в терминах некоторой очень общей универсалии, взятой из нейтральной к предметной области онтологии, такой как BFO. Это поможет гарантировать, что онтология построена с использованием архитектуры онтологий высокого уровня, которая совместно используется с другими онтологиями.
Если, например, отношение part_of утверждается в данной формальной онтологии как транзитивное (так что если x part_of y и y part_of z, то x part_of z будет выполняться), то в онтологии предметной области, построенной на его основе, например, в области анатомии, мы будем возможность использовать эту особенность отношения принадлежности к партии для вывода из части пальца руки и части предплечья тела к части пальца тела. Аналогично, если онтология верхнего уровня содержит различные представления для континуантов (трехмерных сущностей, которые продолжают существовать во времени, таких как планеты и молекулы) и событий (сущностей, которые происходят, что означает, что они распределены не только в пространстве, но и во времени, таких как бейсбольный матч или движение планеты по ее орбите), то все онтологии предметной области, определенные на ее основе, должны будут соблюдать это же различие между объектами, которые она представляет.
В этих и ряде других связанных с ними аспектов онтология верхнего уровня помогает обеспечить корректность построения онтологий на более низких уровнях. Если онтология использует part_of, но содержит утверждения, противоречащие транзитивности, то эти утверждения могут быть помечены как нуждающиеся в ручной проверке. Если онтология распознает различие между вещами и процессами, то проблемные случаи — например, такие термины, как “мутация гена”, которые неоднозначны в отношении значений "вещь" и "процесс" - могут быть выявлены заранее и выпущены предупреждения, требующие от разработчиков подвергнуть такие термины дополнительной проверке вручную. BFO был разработан для того, чтобы играть такого рода роль в процессе проектирования онтологий предметной области и обеспечения качества.
По этим причинам важно в начале разработки онтологии, специфичной для предметной области, рассмотреть, какие онтологические категории и отношения верхнего уровня могут быть применимы к рассматриваемой предметной области, и выбрать онтологию верхнего уровня, представляющую достаточные и достаточно ясные категории и отношения для обработки основных виды сущностей, которые можно найти в рассматриваемом домене. Важно отметить, что, по определению, онтология верхнего уровня должна быть нейтральной к предметной области. Таким образом, он не должен содержать представлений об отношениях и универсалиях, специфичных для какой-либо данной предметной области. Таким образом, по сравнению со многими онтологиями предметной области, определенными в ее терминах, она будет очень маленькой. Онтологический контент, относящийся к каждой конкретной предметной области, затем добавляется к онтологии верхнего уровня в процессе нисходящего заполнения.
Актуальность
Задача определения того, какую часть реальности должна представлять онтология предметной области, включает также решение проблемы определения того, какие и в каком объеме существующие данные и информация о данной предметной области должны быть включены в онтологию. Это можно резюмировать как проблему определения того, что имеет отношение к онтологии, вопрос, который должен определяться (1) текущим состоянием науки и, следовательно, структурой соответствующей части реальности, (2) степенью, в которой можно полагаться на существующие онтологии в соседних областях в поддержке разработки данной онтологии и (3) практическими целями, которым должна удовлетворять онтология. Например, то, что объективно относится к клеточной онтологии (CL), определяется природой самих клеток, тем, что они собой представляют, какие процессы они характерно инициируют или в которые вовлечены, и так далее. Таксономия иммунных клеток CL создана на основе информации о белковых молекулах, экспрессируемых на клеточных поверхностях; представления соответствующих типов молекул взяты из онтологии белков (PRO), чтобы создать такие определения, как следующие:
лимфоцит линии В = def. лимфоцит и (имеет_плазма_мембранную часть некоторой молекулы CD19) и (отсутствует_плазма_мембранная часть некоторого эпсилона CD3)
Или другими словами: лимфоцит линии В - это лимфоцит, который имеет молекулы CD19 на своей плазматической мембране, но не имеет молекул CD3 на своей плазматической мембране. Здесь “лимфоцит” - это термин более высокого уровня, определенный в CL, “молекула CD19” и “молекула CD3” определены в PRO, а “плазматическая мембрана” определена в ветви клеточных компонентов генной онтологии.
Связи между клетками и белками обрабатываются путем построения связей между соответствующими онтологиями таким образом, что информация, собранная в каждой из этих онтологий, объединяется способами, полезными для рассуждения и интеграции. Таким образом, мы также избегаем некоторых опасностей, связанных с образованием "бункеров" — например, когда те, кто интересуется клетками, испытывают искушение разработать свою собственную локальную онтологию поверхностных маркеров белка, онтологию, которая не смогла бы взаимодействовать с другими информационными ресурсами белка. Обеспечение того, чтобы соответствующие онтологии предметной области с самого начала были структурированы на основе одной и той же онтологии верхнего уровня, облегчает приведение их в соответствие необходимым образом.
Задача определения того, что должно быть представлено в онтологии, также будет зависеть от практических целей, которым должна удовлетворять онтология. Любая разработка онтологий (как и вся наука) в некоторой степени носит оппортунистический характер: какие части онтологии разрабатываются в первую очередь или с наибольшей детализацией, часто будет зависеть от доступного финансирования, и такое финансирование часто будет привязано к цели. Целенаправленная человеческая деятельность привлекает внимание к некоторым объектам и оставляет другие на заднем плане. Если наша задача состоит в том, чтобы поддержать научное исследование гипотезы, относящейся, скажем, к заболеваниям плода, связанным с лимфоцитами линии В, то сначала мы определим существующие онтологии с соответствующим содержанием. Но наше исследование может потребовать разработки совершенно новой онтологии, сосредоточенной строго на конкретных областях - например, на взаимодействиях между теми или иными конкретными типами клеток и молекул у тех или иных пациентов, проходящих те или иные виды лечения.
Эти способы, с помощью которых цель может определять содержание онтологии, отражают различие, введенное в главе 2, между ссылочными онтологиями и онтологиями приложений. Эталонная онтология - это репрезентативный артефакт, аналогичный научной теории, в которой первостепенное значение имеют максимальная выразительная полнота и адекватность фактам реальности. Онтология приложения - это репрезентативный артефакт, предназначенный для оказания помощи в достижении некоторой конкретной цели. Справочные онтологии будут создаваться и структурироваться главным образом на основе установленного содержания научной дисциплины. Онтологии приложений будут создаваться и структурироваться в первую очередь с точки зрения того, что имеет отношение к какой-либо конкретной цели. Однако, чтобы быть успешными в долгосрочной перспективе, прикладные онтологии должны в максимально возможной степени использовать части эталонных онтологий в качестве отправных точек. Разработка прикладных онтологий, таким образом, может также принести пользу работе над справочными онтологиями, например, когда обнаруживается, что термины, созданные в рамках первых, имеют общенаучную значимость, например, тогда эти термины будут повышены до уровня, на котором они станут частью справочной онтологии, доступной для более общих целей. используйте.
Степень детализации
Одной из составляющих проблемы определения релевантности является проблема определения соответствующей степени детализации сущностей, которые должны быть представлены в онтологии. Проблема детализации возникает потому, что вещи в реальности, а также их части, бывают самых разных размеров и обладают разной степенью сложности. Существует континуум, простирающийся от субатомных частиц, атомов и молекул, через обычные объекты, такие как животные, камни и столы, к экосистемам, планетам, солнечным системам, галактикам и, в конечном счете, к самой Вселенной. Аналогичный континуум существует и в сфере процессов, разворачивающихся во времени, простирающихся от миллисекунд до лет и геологических эпох. Вещи и процессы могут быть идентифицированы на всех этих различных уровнях детализации, и по мере того, как мы продвигаемся вверх к последовательно более крупным зернам, мы сталкиваемся с сущностями, которые проявляют черты, не обнаруживаемые на более низких уровнях — феномен, упоминаемый философами под названием “возникновение”. Проблема детализации при проектировании онтологий - это проблема определения прототипных размеров и сложности сущностей, которые должны быть представлены в данной онтологии предметной области. Должна ли онтология гор включать представления о типах молекул, из которых состоят горы? Должна ли онтология стадий жизненного цикла растения включать стадии роста отдельных листьев? При разработке онтологии выбор корневых узлов будет частично определять уровень или уровни детализации, которые будут составлять часть охвата онтологии, но на это определение будут влиять в первую очередь потребности пользователей онтологии - например, в отражении степень, в которой более тонкие градации таксономии позволяют регистрировать различия в данных практически полезного рода.
Проблема несуществующего
Как только определена предметная область или область охвата онтологии, необходимо провести систематический обзор содержания общепринятой науки, относящейся к этой предметной области. Это означает, прежде всего, изучение текущего содержания авторитетных учебников и характерной терминологии. Таким образом, онтологии относятся в первую очередь к использованию общих терминов в устоявшихся науках. В таких областях, как химия, онтологии могут использоваться для представления типов сущностей, которые не существуют — например, еще не синтезированных молекул, — но в целом правило таково, что онтологии должны состоять из представлений только тех типов, для которых у нас есть веские доказательства существования экземпляров (и, расширяя, только из тех определенных классов, для которых у нас есть веские доказательства наличия членов). Очень иногда может потребоваться разработка онтологий для поддержки исследований в областях, которые все еще являются предметом споров между различными группами ученых и, следовательно, не относятся к устоявшейся науке. (Вспомним, опять же, случай с “бозоном Хиггса”.) Мы предпочитаем рассматривать такие онтологии как временные по своей природе, которые будут переведены в ранг собственно онтологий только тогда, когда соответствующие споры будут урегулированы. Методы создания таких предварительных онтологий тогда будут по существу такими же, как описанные здесь, но процесс выбора термина будет применяться не к существующим учебникам, а, например, к журнальным статьям, подготовленным некоторым подмножеством спорящих партнеров. Результаты такой предварительной разработки онтологии тогда также будут предварительными. Они смогут быть добавлены к существующему содержимому онтологии и рассматриваться как другие онтологии только после того, как соответствующие споры будут разрешены.
Вывод
В этой главе мы представили некоторые общие принципы проектирования онтологий и представили обзор двух начальных этапов процесса построения онтологии, а именно: разграничение предметной области онтологии и сбор информации о предметной области. В следующей главе мы обсудим третий шаг процесса построения онтологии: регламентацию, которая более подробно рассматривает вопросы выбора терминологии, определения и классификации.
Принципы наилучшей практики II: Термины, определения и классификация
Мы предполагаем, что, следуя рекомендациям, изложенным в главе 3, была определена соответствующая область применения онтологии и собрана соответствующая информация о предметной области. Мы также предполагаем, что конструктор онтологий создал черновой список терминов и связал их с первым черновым набором определений и предварительной иерархией is_a. Следующим шагом является использование этого списка терминов для систематизации информации о домене, в то же время позволяя улучшить понимание домена и внести улучшения в список терминов. Цель состоит в том, чтобы создать репрезентативный артефакт, который был бы настолько логически последовательным, недвусмысленным и соответствовал фактам реальности, насколько это возможно.
Существует три основных аспекта регламентации онтологий предметной области: терминологический, определительный и расположение в иерархии is_a. Мы рассмотрим каждый из этих вопросов по очереди, хотя читателю следует иметь в виду, что существует большая степень совпадения и взаимозависимости между тремя группами вопросов.
Принципы терминологии
Соберите и выберите терминологию
В главе 3 мы предположили, что хорошей отправной точкой для построения онтологии является создание набора терминов, выбранных из наиболее часто используемых терминов в стандартных учебниках и в соответствующих онтологиях предметной области. Первым и незаменимым шагом в любом проекте разработки онтологии является проведение должной проверки при выявлении существующего содержимого онтологии, имеющего отношение к поставленной задаче, и оценка этого содержимого на предмет возможного повторного использования, используя инструменты для поиска онтологий, такие как биопортал NCBO (http:// bioportal.bioontology.org ).
Результирующий список слов (или лучше: нарицательных имен и словосочетаний) формирует первый набросок того, что мы можем рассматривать как терминологию для рассматриваемой предметной области. Такая терминология уже может быть полезна для людей, например, для поддержки последовательного использования языка при обмене информацией. Для нас, однако, это имеет более амбициозную цель, которая заключается в том, чтобы дать возможность научной информации, с которой она связана, быть включенной в определенный тип компьютерного репрезентативного искусства, которым является онтология, и для этого потребуется специальная терминология.
Генная онтология (GO), безусловно, самая успешная онтология на сегодняшний день, была описана ее создателями как “контролируемый словарь”, который будет использоваться для регламентации способов описания информации о генных продуктах в различных модельных организмах. Проблема, для решения которой он был разработан, является общей для всей науки: там, где несколько дисциплинарных групп вовлечены в изучение какого-либо представляющего интерес научного явления, у каждой, скорее всего, будет свой собственный идиосинкразический словарь. Проблема в том, что существует слишком много терминов для целей успешного обмена информацией между дисциплинами. The GO представила стратегию решения этой проблемы путем распространения набора “предпочтительных терминов” для использования при описании атрибутов генных продуктов нейтральным с точки зрения вида образом. Затем кураторы литературы систематически используют предпочтительные термины для описания экспериментальных данных, появляющихся в опубликованных статьях. Затем эти данные становятся более легко извлекаемыми и комбинируемыми, что позволяет преодолеть проблемы, вызванные множеством конфликтующих словарей.
Успех GO во многом обусловлен тем фактом, что влияние его создателей было таково, что они смогли установить выбранные ими предпочтительные ярлыки в качестве аттракторов для большого числа пользователей в каждой из множества взаимодействующих дисциплин, изучающих множество различных видов организмов. Чтобы повторить этот успех, разработчикам онтологий сегодня необходимо найти способ выбора терминов, которые максимально приближены к фактическому использованию значительной части тех, кто работает в соответствующей области, не отталкивая тех, кто работает в этой области, чья устоявшаяся терминология предполагает использование других терминов. Эта цель может быть достигнута, частично, путем распространения выбранных предпочтительных меток, используя их при обработке больших массивов данных, полезных для более широкого сообщества, и - опять же, следуя практике, впервые внедренной GO, — путем включения специфичных для сообщества “синонимов” в онтологию наряду с предпочтительными метками. Таким образом, на начальном этапе из опыта GO можно извлечь три принципа построения терминологии:
1. Включите в терминологию термины, используемые влиятельными группами ученых для обозначения наиболее важных типов объектов в предметной области, которые должны быть представлены.
2. Стремитесь обеспечить максимальное согласие с терминологическим использованием ученых в соответствующей дисциплине. Это вполне может включать работу с экспертами в предметной области, например, при согласовании терминологических компромиссов.
3. Определите области совпадения дисциплин, в которых терминологическое употребление не согласовано. Ищите и отслеживайте синонимы для терминов, которые уже есть в списке терминологии из этих областей.
Только эта стратегия будет работать в тех случаях, когда пересекающиеся дисциплины отличаются лишь выбором слов для представления идентичных сущностей. Там, где терминология, используемая различными дисциплинами в таких пересекающихся областях, отличается более существенным образом, необходимо применять более сложные стратегии. Две онтологии могут, например, иметь дело с одними и теми же явлениями, но на разных уровнях детализации (например, молекула и клетка); или они могут отличаться тем, что одна онтология имеет дело с объектами, в то время как другая имеет дело с процессами; или один может иметь дело с объектами, в то время как другой имеет дело с изображениями объектов.
В таких случаях необходимо разработать несколько онтологий (или несколько ветвей одной онтологии), а соответствующие термины связать друг с другом посредством отношений и соответствующих определений и аксиом. Это действенные стратегии, поскольку мы имеем дело с областями устоявшейся науки, где мы можем предположить, что рассматриваемые дисциплины будут согласованы друг с другом в том, что касается их научного содержания. Часто оказывается возможным сформулировать правила сопоставления — аналогичные, например, правилам преобразования между различными системами научных единиц, — которые позволяют преобразовывать утверждения, сформулированные с использованием терминов из одной дисциплины, выбранных в качестве синонимов в онтологии, в утверждения, сформулированные с использованием терминов, выбранных в качестве предпочтительных меток.
Чего следует избегать любой ценой, так это создания совершенно новых выражений в качестве предпочтительных меток в онтологиях для представления сущностей, с которыми эксперты в предметной области уже знакомы под устоявшимися названиями. Точно так же онтологу следует избегать использования знакомых терминов с новыми и отличающимися значениями. Чтобы избежать путаницы как при кодировании информации в онтологии, так и при интерпретации такой информации конечными пользователями, терминологический выбор разработчиков онтологий предметной области должен быть максимально уважительным к текущей терминологии, использованию и практике современных экспертов в предметной области и потенциальных пользователей. Это приводит к четвертому принципу построения терминологии, который перекликается с принципом повторного использования из главы 3.
4. Не изобретайте велосипед заново. При выборе термина придерживайтесь, насколько это возможно, рекомендаций реальных экспертов в предметной области. При построении терминологии и проектировании онтологий используйте как можно больше существующих ресурсов (терминологий и онтологий).
Терминология форматирования
5. Используйте существительные в единственном числе.
Термины в онтологии должны, насколько это возможно, иметь грамматическую форму существительных в единственном числе или словосочетаний с существительными в единственном числе.
В пользу принятия этой конвенции говорят два рода причин. Во-первых (и это будет общим рефреном в дальнейшем, когда мы будем иметь дело с рекомендациями по синтаксису и терминологии), крайне важно, чтобы какой-то синтаксический стандарт, какое-то правило поведения были приняты и соблюдались всеми, кто участвует в построении онтологии, чтобы синхронизировать многочисленные подобные усилия выполняется параллельно в любой момент времени. Чтобы увидеть, что происходит, когда это правило не соблюдается, рассмотрим, например, случай mesh1, иерархия которого подразумевает отношения is_a, такие как
коммунизм is_a политические системы,
политические системы - это социальные науки,
социальные науки - это поведенческие дисциплины и виды деятельности,
поведенческие дисциплины и виды деятельности - это тематический дескриптор
и так далее. Смешанное использование существительных единственного и множественного числа может быть вполне уместно для таких целей, как составление библиотечных каталогов; однако это вызывает проблемы при составлении информации в форме, которая будет аргументирована.
Правило имен существительных в единственном числе было хорошо проверено на практике и дает простую и не требующую затрат форму синхронности. Существует также принципиальная причина настаивать на том, что все термины в онтологии должны иметь форму существительных единственного числа. Это связано с тем, что каждый такой термин предназначен для обозначения не какой-то множественной или собирательной сущности, а скорее либо универсальной, либо определенного класса. В любом случае его ссылка будет в единственном числе. Существует только один универсальный организм, даже если у него много экземпляров, и существует только один определенный класс причин дорожно-транспортных происшествий, даже если у него много и разнообразных членов.2
6. Используйте строчный курсив для имен нарицательных.
В соответствии с принципом 5 мы рекомендуем при подготовке содержимого онтологии для просмотра людьми использовать строчные курсивные буквы для терминов, относящихся к универсалиям или классам (эта рекомендация частично основана на том факте, что начальные заглавные буквы обычно используются в английском языке для обозначения имен собственных, которые являются названиями объектов). экземпляры (“Том”, “Сиэтл”, “Юпитер”). Таким образом, cat, а не “Кот” или “КОШЕЧКА”, и эукариотическая клетка, а не “Эукариотическая клетка” или “ЭУКАРИОТИЧЕСКАЯ КЛЕТКА”. Некоторые программы редактирования онтологий требуют использования подчеркивания (eukaryotic_cell) или одинарных кавычек (‘эукариотическая клетка’) или регистра camel (eukaryoticCell), чтобы компьютер мог идентифицировать начала и окончания именных фраз. Какое бы правило дорожного движения ни было выбрано в этом отношении, главная цель состоит в том, чтобы обеспечить последовательное соблюдение соглашения — опять же по соображениям координации между онтологиями.
7. Избегайте сокращений.
Избегайте, насколько это возможно, использования сокращений при формулировании терминов онтологии. Обоснование этого заключается в том, что акронимы и аббревиатуры слишком легко создавать локально — часто, например, разработчиками баз данных просто для того, чтобы заголовки всех столбцов поместились на одном экране. Период полураспада аббревиатур может быть очень коротким, и нет ничего необычного в том, что те, кто работает с базами данных (иногда даже сам создатель базы данных) забывают, что первоначально означали их аббревиатуры. Цель онтологии, напротив, состоит в создании стандартных терминологий, которые могут использоваться и на которые может положиться любой — в настоящем и в будущем — работающий в данной дисциплине. Некоторые сокращения и связанные с ними выражения в некоторых научных идиоматиках стали частью языка, как, например, в таких терминах, как “ДНК”, “СПИД” или “АТФаза”; таким образом, они стали защищены от возможности повторного использования новыми группами исследователей с разными значениями. Однако, за исключением таких случаев, при выборе первичной метки для записи в онтологии в каждом случае следует использовать полное существительное или словосочетание нарицательного.
8. Свяжите каждый термин в онтологии с уникальным буквенно-цифровым идентификатором.
Идентификатор связан с термином в данной версии онтологии. Всякий раз, когда онтология пересматривается и публикуется в новой версии, при условии, что рассматриваемый термин не изменен в этой редакции, его идентификатор может быть сохранен без изменений. Идентификаторы необходимы для компьютерных целей — они, например, лягут в основу универсальных идентификаторов ресурсов, с помощью которых термины онтологии будут идентифицироваться в веб-системах. На рисунке 4.1 представлен снимок экрана фрагмента Protein Ontology (PRO), который иллюстрирует рекомендуемый нами подход.3
В верхней части иерархии на рисунке 4.1 находится запись “аминокислотная цепь”. Щелчок по записи приведет пользователя к удобочитаемому определению термина вместе с другой информацией о нем. Слева от термина находится его буквенно-цифровой идентификатор PR:000018263, который однозначно определяет местоположение этого термина в структуре PRO для целей компьютерного программирования и используется также при создании перекрестных ссылок из других онтологий и баз данных обратно в PRO. Идентификатор будет связан не только с термином, но и с его уникальным понятным человеку определением (для целей построения, сопровождения и использования онтологии людьми), а также с логически формализованной версией этого определения.
9. Обеспечьте однозначность терминов.
Термины должны иметь одинаковое значение при каждом использовании. В онтологии “клетка” всегда должна относиться к универсальной клетке, “рак” всегда к универсальному раку и так далее. Принцип однозначности при разработке терминологии онтологии трудно соблюдать, поскольку он так регулярно нарушается как в обычном, так и в научном (и клиническом) языке. Это происходит, прежде всего, из-за неоднозначных выражений, включая само слово “клетка”, которое имеет не только биологическое значение, но и (родственные) значения по отношению, например, к тюремным камерам или ячейкам в электронной таблице. Более важная причина, однако, заключается в том факте, что отклонения от однозначности происходят из-за склонности людей использовать многоточие в местных условиях (например, использовать “третье левое бедро” для обозначения пациента с переломом бедра, лежащего на третьей койке в левой части палаты). Причина, по которой мы настаиваем на однозначности в контексте проектирования онтологий, довольно проста. Если один и тот же термин используется по-разному в разных контекстах, то люди, участвующие в построении онтологии, с большей вероятностью допускают ошибки. Онтологии, конечно, разрабатываются в первую очередь для использования компьютерами, и там проблемы неоднозначности устраняются за счет использования уникальных буквенно-цифровых идентификаторов для каждого термина онтологии. Однако по-прежнему важно усердно работать над тем, чтобы избежать отклонений от однозначности, поскольку опыт показывает, что такие отклонения являются источником человеческих ошибок при разработке и обслуживании онтологии.
Здесь следует отметить, что принцип однозначности конкретно гласит, что каждый термин в онтологии должен иметь ровно одно значение. Мы не исключаем присутствия в онтологии нескольких терминов, имеющих одинаковое значение, но это всегда должно происходить путем объявления одного такого выражения предпочтительным термином, с которым затем могут быть связаны синонимы в соответствии с терминологическими потребностями различных сообществ, использующих онтологию.
Примером нарушения принципа однозначности является трактовка термина “прогрессирование заболевания” в тезаурусе Национального института рака [NCI] (версия от 2 августа 2004 г.), в котором предлагались три различные возможные интерпретации:
(I) Рак, который продолжает расти или распространяться;
(II) Увеличение размера опухоли или распространение рака в организме;
(III) Обострение заболевания с течением времени. Эта концепция чаще всего используется для хронических и неизлечимых заболеваний, где стадия заболевания является важным фактором, определяющим терапию и прогноз.4
В определениях (I) и (II) “прогрессирование заболевания” - это то, что касается только рака; однако в определении (III) “прогрессирование заболевания” включает ухудшение любого заболевания с течением времени. В третьем определении также “прогрессирование заболевания” определяется как “концепция”, а не как процесс. Это определение также содержит пункт, описывающий, как часто используется этот термин. Такая информация может быть включена в комментарий, связанный с рассматриваемым термином; однако по логическим соображениям ее не следует включать в само определение.5
Обратите внимание, что выявленные проблемы все еще сохраняются в текущей версии тезауруса NCI (30 июня 2014 г.), где у нас есть, например, два термина “ячейка”, определяемые как означающие “любой небольшой отсек” и как “отдельная единица, из которой состоят все ткани". из тела.” Утверждается, что первый является подтипом “концептуальной сущности”; второй - “микроанатомической структуры”6.
10. Обеспечьте однозначность реляционных выражений.
Однозначность применима также к реляционным выражениям, используемым в иерархиях онтологий, например, is_a и part_of. Ранние годы разработки онтологии были отмечены феноменом “перегрузки is_a”, при котором “is_a” могло означать в разных контекстах либо подкласс, либо экземпляр, либо некоторую запутанную смесь того и другого.7 Аналогично, “A part_of B” иногда использовалось для обозначения того, что все As являются частью некоторого B, все Bs имеют некоторое A в качестве части, некоторые As имеют некоторое Bs в качестве части, или снова некоторая запутанная смесь всего этого.8 Более подробную информацию о том, как должны быть решены эти проблемы, смотрите в главе 7.
11. Избегайте массовых существительных.
С проблемой однозначности связано основное различие между существительными со счетом и существительными с массой. Счетные существительные, такие как “кошка”, “лепесток” и “клетка”, относятся к универсалиям, экземпляры которых можно подсчитать. Таким образом, можно задать сколько угодно вопросов (сколько кошек в этом здании?, сколько лепестков на этом цветке? и так далее). Такие термины, как “вода”, “ткань”, “мясо” и “химическое вещество”, часто используются в качестве массовых существительных. Это означает, что они используются для выделения или обозначения более или менее неопределенного количества материала. Можно спросить, сколько воды, мяса или химического вещества содержится, например, в данном контейнере; но нельзя, без дополнительных уточнений, сколько воды, тканей, мяса. Скорее, мы спрашиваем: “сколько там стаканов воды?”, “сколько там кусков мяса?”, “сколько там литров молока?” и так далее. Однако теперь мы заменили исходное существительное mass существительным count (точнее, словосочетанием count noun), чтобы гарантировать, что действительно будут отдельные порции материала, которые можно подсчитать.
Конечно, существуют осмысленные предложения, включающие существительные массового употребления, которые не были преобразованы таким образом в существительные-счетчики, например, когда медсестре дается указание хранить салфетки в морозилке или брать кровь у пациента. Размышление, однако, показывает, что соответствующее преобразование здесь все еще выполняется — даже если и не явно. Это происходит потому, что понятны соответствующие количества или контейнеры. Более того, в различных контекстах такие термины, как “кровь”, могут использоваться для обозначения не просто какого-то определенного количества крови пациента, но произвольной порции или максимальной порции крови в организме пациента и так далее — и “произвольная порция крови”, и “максимальная порция крови” тоже вполне приемлема с точки зрения принципа “избегайте массовых существительных”. Еще одна причина для продвижения этого принципа связана с неопределенностями, возникающими из-за того факта, что такие термины, как “кровь”, “ткань”, “вода”, “мясо” или “аспирин”, часто используются для обозначения типов, а не конкретных порций рассматриваемых веществ. Эти двусмысленности имеют особое значение для разработчиков онтологий, поскольку именно на разделении между типами (универсалиями) и экземплярами (частностями) основана онтология.
Очевидно, что массы веществ различных типов действительно существуют в реальности — но на уровне экземпляров они всегда существуют в больших или малых количествах. Таким образом, не существует сахара без определенной порции сахара; нет багажа без определенного количества чемоданов и других предметов багажа. Кроме того, массы веществ существуют на разных уровнях детализации: таким образом, масса ткани организма в одно и то же время является совокупностью клеток.
Подводя итог: массовое существительное, такое как “ткань”, может использоваться для обозначения одного или нескольких из следующих:
• часть вещества внутри большей части вещества (ткань внутри органа, из которого врач намеревается взять образец);
• дискретная (отделенная) часть материала (например, ткань, которая была выращена независимо для того, чтобы быть помещенной внутрь органа);
• рассматриваемый тип ткани (легочная ткань по сравнению с мышечной тканью, здоровая ткань по сравнению с раковой тканью); и
• максимальное или полное количество вещества (например, вся ткань, составляющая печень).
Эти различные значения термина “ткань” задействованы в совершенно разных теоретических и практических контекстах, и поэтому важно разделять их для целей проектирования онтологии. И даже если бы только одно такое использование массового существительного, такого как “ткань”, было выбрано в качестве предпочтительного обозначения в онтологии, упомянутые двусмысленности все равно привели бы к проблемам неправильного использования этого термина людьми. Именно по этой причине мы рекомендуем полностью избегать массовых существительных при построении онтологий. Вместо этого следует использовать фразы, начинающиеся с соответствующего префикса (например, “часть”, “максимальная часть” и так далее). Это решение было использовано, например, онтологией FMA, которая является ведущим ресурсом для терминов, относящихся (среди прочего) к различным тканям и другим типам веществ организма.9
Чтобы добиться такого упорядочения, мы рекомендуем преобразовать существительные с массой, такие как “химическое вещество”, в существительные со счетом, добавив в начало “часть” или какой-либо соответствующий контексту эквивалентный оператор; таким образом, “часть химического вещества”, “часть ткани” и так далее. Принятие этой стратегии позволяет рассматривать кажущиеся массовыми существительные как экземпляры либо фиксированных частей, либо агрегатов объектов (см. главу 5). Основная идея, однако, заключается в том, что, поскольку массовые существительные относятся к разным типам сущностей в разных случаях использования, их следует избегать в пользу более онтологически прозрачной терминологии.
12. Отличайте общее от частного.
До этого момента мы подчеркивали, что онтология - это представление универсалий и определенных классов. Конкретные объекты — экземпляры универсалий и члены определенных классов — рассматриваются, например, в базах данных, клинических записях или журналах экспериментов. Для нас это вопрос определения слова “онтология”.- несомненно, есть те, кто строит онтологии, включающие смесь терминов, представляющих отдельных людей — например, Стандартизированная номенклатура медицины (SNOMED) включает термин “Национальная спиритуалистическая церковь”, который в ней рассматривается как подкласс духовных или религиозных убеждений.10 Наши причины настаивать на том, что онтологии должны быть ограничены исключительно представлениями о том, что является общим, многообразны, но на данный момент будет достаточно упомянуть только одну, которая слишком хорошо иллюстрируется только что упомянутым примером из SNOMED. А именно, что отступление от этого принципа часто связано с совершением ошибок: церковь, как бы ее ни понимали (будь то как организацию или как здание), не является особым видом верования, как того хотел бы СНОУМЕД11.
Там, где онтология должна быть дополнена терминами, представляющими индивидов, тогда это должно быть в каком—то отдельном информационном артефакте - соответствующем различию в сообществе логики описания между T-box (для “терминологии”) и A-box (для “утверждений”).12 Эти два артефакта могут быть объединены для практических целей везде, где это необходимо, образуя то, что некоторые называют “базой знаний”. Но результатом является — опять же по причинам определения — не онтология, не более чем описание или иллюстрация- описание того, как научная теория была применена в конкретной серии экспериментов, само по себе является научной теорией.
Термины, относящиеся к универсалиям, и термины, относящиеся к примерам, должны быть четко разграничены. Например, нарицательное существительное “чайник” в том виде, в каком оно встречается в таком предложении, как “чайник - это устройство для розлива чая”, вполне вероятно, может быть понято как относящееся к типу или универсальному чайнику. Термин “чайник” в том виде, в каком он встречается в предложении “У Джона украли чайник”, следует понимать как относящийся к одному конкретному чайнику.13