Создание онтологии на основе Basic Formal Ontology: различия между версиями
Vserge (обсуждение | вклад) м (→Обзор процесса проектирования онтологии предметной области: поправлен шаг1) |
Vserge (обсуждение | вклад) (→Обзор процесса проектирования онтологии предметной области: оформление абзацев) |
||
Строка 96: | Строка 96: | ||
Шаг 2 - это задача собрать подборку (около пятидесяти) наиболее распространенных терминов весьма общего характера, некоторые из них взяты из соответствующих онтологий, некоторые из стандартных учебников. |
Шаг 2 - это задача собрать подборку (около пятидесяти) наиболее распространенных терминов весьма общего характера, некоторые из них взяты из соответствующих онтологий, некоторые из стандартных учебников. |
||
+ | Шаг 3 представляет собой предварительное упорядочение этих терминов в иерархии более и менее общих и служит предшественником шага 4. |
||
⚫ | |||
+ | |||
⚫ | Шаг 4 состоит в работе над этой иерархией для обеспечения согласованности, например, путем добавления дополнительных терминов для обеспечения полной таксономической иерархии онтологии; и идентификации терминов, относящихся к универсалиям самого высокого уровня в рассматриваемой предметной области, которые будут служить корневым узлом или узлами онтологии разрабатывается. Это также будет включать в себя создание набора понятных человеку определений для выбранных терминов, что будет включать сбор дополнительной информации о наиболее важных универсалиях предметной области, которые охватываются этими универсалиями самого высокого уровня, и идентификацию любых соответствующих терминов в соседних онтологиях, которые понадобятся при формулировании из определений. Начиная с корневых узлов и двигаясь вниз, мы пытаемся определить последовательные роды и отличительные характеристики, которые необходимо будет включить в определения сущностей, подлежащих включению в онтологию; и мы корректируем нашу предварительную схему классификации в свете любых изменений, которые диктуют наши определения. |
||
Процесс регламентации является итеративным и будет включать последовательные циклы проверки версий иерархии терминов и определений на предмет логической, философской и научной адекватности, включая последовательность и понятность для человека, а также обеспечение того, чтобы в результате не были упущены какие-либо существенные элементы предметной области. |
Процесс регламентации является итеративным и будет включать последовательные циклы проверки версий иерархии терминов и определений на предмет логической, философской и научной адекватности, включая последовательность и понятность для человека, а также обеспечение того, чтобы в результате не были упущены какие-либо существенные элементы предметной области. |
||
+ | |||
Как только таким образом будет достигнуто полное понимание предметной области, этап 5 - это задача итеративного кодирования онтологии посредством логической формализации. Это достигается путем преобразования определений терминов на естественном языке, содержащихся в онтологии, в формат, пригодный для использования на компьютере, с использованием инструмента редактирования онтологии. |
Как только таким образом будет достигнуто полное понимание предметной области, этап 5 - это задача итеративного кодирования онтологии посредством логической формализации. Это достигается путем преобразования определений терминов на естественном языке, содержащихся в онтологии, в формат, пригодный для использования на компьютере, с использованием инструмента редактирования онтологии. |
||
+ | |||
Хотя процесс из пяти шагов по своей природе является нисходящим, работая от очень общих к последовательно менее общим терминам в онтологии, на практике он будет включать в себя большое количество циклов обратной связи между последовательными шагами. В следующих разделах мы более подробно обсудим процессы демаркации и сбора информации. В главе 4 мы рассмотрим проблему регламентации, а к вопросам кодирования вернемся в главе 8. |
Хотя процесс из пяти шагов по своей природе является нисходящим, работая от очень общих к последовательно менее общим терминам в онтологии, на практике он будет включать в себя большое количество циклов обратной связи между последовательными шагами. В следующих разделах мы более подробно обсудим процессы демаркации и сбора информации. В главе 4 мы рассмотрим проблему регламентации, а к вопросам кодирования вернемся в главе 8. |
||
Версия 21:35, 8 июля 2023
Данный материал написан по материалам книги "Building ontologies with Basic Formal Ontology" (Arp, Robert ; Smith, Barry & Spear, Andrew D. (2015). Building Ontologies with Basic Formal Ontology. Cambridge, MA: MIT Press)
Принципы наилучшей практики I: Проектирование онтологии предметной области
В главах 1 и 2 онтология была определена как репрезентативный артефакт, представления которого предназначены для обозначения универсалий, определенных классов и отношений между ними. Мы также ввели некоторые различия между различными типами онтологий и представили идею таксономии как центрального компонента онтологии. В свете всего этого проблема проектирования онтологии - это проблема проектирования формализованного репрезентативного артефакта, включающего таксономическую иерархию в качестве основы, чьи представления (термины) обозначают универсалии, определенные классы и отношения между ними. В этой и следующей главах мы обсудим, как этот процесс выглядит на практике, сосредоточив внимание на соображениях и принципах, связанных с разработкой справочных онтологий предметной области, полезных для поддержки научных исследований. Вопросы, которые будут рассмотрены в этой главе, включают в себя: предмет и область применения онтологии предметной области, а также первые шаги, которые следует предпринять при разработке самой онтологии.
Общие принципы проектирования онтологий
Сначала мы изложим принципы, определяющие общее отношение или мировоззрение, которые следует иметь в виду при разработке онтологии. Наша позиция заключается в том, что хорошей онтологией будет та, которая разработана таким образом, чтобы соблюдать эти принципы, и что, действительно, соблюдение этих принципов будет частью того, что делает онтологию хорошей.
1. Реализм
Мы уже обсуждали нашу приверженность реализму в главе 1. В целом, “реалистизм” можно определить как философскую позицию, согласно которой реальность и ее составляющие существуют независимо от наших (лингвистических, концептуальных, теоретических, культурных) представлений и могут быть познаны, например, посредством перцептивного опыта и применения научного метода. Цель науки, с этой реалистической (и, как мы полагаем, здравомыслящей) точки зрения, состоит в том, чтобы открывать истины о реальности. Реализм в онтологии также основан на идее о том, что с помощью науки мы можем познать общие черты реальности в виде универсалий и отношений между ними. Этот реалистический подход имеет ряд общих последствий. Во-первых, это подразумевает, что онтологии являются репрезентациями реальности, а не концепциями людей, ментальными репрезентациями или использованием языка. Конечно, онтология, например, когнитивной психологии или лингвистики, может содержать концепции, ментальные репрезентации или способы использования языка в рамках своего предмета. Но тогда последние рассматривались бы как части реальности в точности аналогично тому, что имеет место, например, в онтологии астрофизики или в развитии растений. Многие разделы науки относятся к сущностям, таким как химические элементы, клетки прокариот или горные породы палеопротерозоя, которые существовали задолго до появления первых людей. Другие разделы науки относятся к сущностям — например, в области права или экономики, — которые существуют в результате человеческой мысли и деятельности. Онтологический реализм в равной степени применим ко всем отраслям науки, исходя из того, что, например, обеспеченные долговые обязательства не менее реальны, чем электроны и планеты.
2. Перспективизм
Цель науки состоит не просто в том, чтобы открывать истины о реальности. Его цель - разработать теории, которые были бы настолько точными, настолько широкомасштабными, настолько прогнозирующими, настолько объясняющими, настолько логически последовательными и настолько хорошо проверенными, насколько это возможно. К сожалению, эти цели — и ряд других целей, которые также считаются привлекательными, таких как максимальное соответствие здравому смыслу, — по-видимому, не могут быть реализованы одновременно. Чтобы справиться с этим фактом, мы придерживаемся доктрины перспективизма. Перспективизм проистекает из признания того, что реальность слишком сложна и разнообразна, чтобы охватить ее во всей полноте в рамках одной научной теории. Это сводится к принципу, согласно которому две различные научные теории могут быть одинаково точными представлениями об одной и той же реальности. Это, конечно, не означает, что все представления, созданные учеными, имеют равную ценность. Точка зрения, согласно которой рыбы являются млекопитающими, явно имела бы меньшую ценность, чем противоположная точка зрения, поскольку она была бы менее точной по отношению к фактам реальности. Но, тем не менее, существует множество различных репрезентаций, которые являются одинаково хорошими (истинными, достоверно подтверждаемыми) репрезентациями некоторой данной части реальности именно потому, что они отражают различные особенности этой реальности. Наиболее очевидные примеры различных, но одинаково обоснованных точек зрения на одну и ту же область реальности связаны с феноменом детализации. Проще говоря, одинаково правомерно изучать живые организмы как с точки зрения молекулярной биологии, так и с точки зрения, учитывающей анатомию и физиологию на уровне органов и систем органов. Одинаково правомерно рассматривать человеческое поведение как с точки зрения физики сенсомоторной системы человека, так и с точки зрения экономических стимулов. Каждая из упомянутых точек зрения может внести свой вклад в наши знания о реальности, которые точно соответствуют текущей реальности. Последствия перспективизма для онтологии заключаются в том, что несводимость различных точек зрения должна соблюдаться также при проектировании онтологий. Разработчики онтологий не должны стремиться представить все части и особенности реальности в единой онтологии, а должны стремиться, скорее, к модульному подходу, при котором каждый модуль поддерживается, насколько это возможно, экспертами в соответствующей научной дисциплине.
3. Фаллибилизм
Фаллибилизм предполагает приверженность идее о том, что, несмотря на то, что наши современные научные теории являются лучшим имеющимся у нас источником утверждений, которые являются кандидатами на выражение истин о реальности, тем не менее, возможно, что некоторые из этих утверждений ложны. Реальность существует независимо от наших способов ее научного понимания, и опыт подсказывает нам, что даже наши лучшие современные теории могут подвергаться корректировке. Таким образом, хотя реалист считает, что наш опыт, идеи и научные теории относятся к реальности — что они в совокупности образуют представление, карту или картинку реальности, — это не означает, что все элементы этой карты верны; некоторые элементы могут неправильно соотноситься, некоторые могут вообще не соотноситься все. Наша карта реальности на любом данном этапе всегда является лишь частичной: реальность никогда не раскрывается ученым во всей своей полноте. И поскольку наше представление постоянно расширяется по мере того, как мы узнаем и открываем для себя больше о том, что существует по ту сторону реальности, то, во что мы верим сегодня, основываясь на том, что мы узнали о тех аспектах реальности, к которым мы до сих пор имели доступ, иногда подрывается тем, что мы узнаем завтра о тех аспектах реальности, которые существовали до сих пор. недооцененный. Процесс корректировки нашей карты реальности сам по себе подвержен множеству различного рода неудач и изменений направления, некоторые (немногие) из которых могут быть радикальными по своей природе (двумя выдающимися примерами являются коперниканская и дарвиновская революции в физике и биологии). Однако, несмотря на все эти изменения и даже на самые радикальные научные революции, основные справочные элементы этой карты остаются нетронутыми. Ученые ошиблись, полагая, что солнце вращается вокруг земли; но, исправив эту ошибку, они продолжали использовать такие термины, как “солнце” и “земля”, для обозначения тех же сущностей, что и раньше. Нечто подобное применимо к таким общим терминам, как “атом”, “звезда”, “организм”, “клетка” и “планета”. Хотя наши представления об этих сущностях менялись со временем, сами эти термины в значительной степени сохранили свое значение благодаря таким изменениям. Однако в то же время фаллибилист признает, что и в отношении общих терминов наши научные знания со временем могут быть перевернуты новыми эмпирическими открытиями, как, например, в уже упомянутом случае с “флогистоном”. Некоторые конкретные последствия фаллибилизма для проектирования онтологий в поддержку научных исследований включают следующее: 3а. Что каждая онтология должна иметь сложные стратегии для отслеживания успешных версий онтологии. Новая версия онтологии становится необходимой, когда обнаруживаются и исправляются ошибки в текущей научной теории предметной области и когда обнаруживается новая информация, относящаяся к предметной области. Пользователи онтологии должны иметь возможность отслеживать такие изменения. 3b. Что каждая онтология должна иметь службу отслеживания для своих пользователей, которая позволит им легко указывать на ошибки и пробелы в онтологии и своевременно рассматривать их заявки в эту службу. Как и сама наука, проектирование онтологий - это непрерывное коллективное предприятие, в котором ошибки могут быть обнаружены и предотвращены с помощью ввода и тестирования нескольких человек.
4. Адекватность
В философских кругах широко распространена тенденция рассматривать цель философии в редукционистских терминах. С этой точки зрения задача философа состоит в том, чтобы объяснять сложные явления, сводя их к более простым и фундаментальным компонентам, опираясь при этом на поразительные успехи современной физики. Адекватизм - это противоположная тенденция, которая утверждает, что сущности в любой данной области следует воспринимать серьезно на их собственных условиях и что в нашем наборе теорий реальности должно быть место для всех различных видов сущностей, которые содержит реальность, на всех уровнях детализации. Для адекватиста все научные дисциплины, на первый взгляд, одинаково ценны в плане представления того, что существует в реальности. Точно так же, как онтология физики посвящена, например, атомам и субатомным частицам, а онтология химии - химическим элементам и соединениям и связанным с ними реакциям, так и онтология биологии будет включать представления универсалий и определенных классов на различных уровнях детализации от молекул и клеток до органов и систем. организмы, а оттуда - популяции и экосистемы. Цель онтологии, с точки зрения сторонника адекватизма, состоит в том, чтобы отдать должное огромному множеству различных видов сущностей, существующих в мире, вместо того, чтобы игнорировать те или иные конкретные виды сущностей или пытаться их объяснить. Именно адекватистский взгляд на онтологию отстаивается в дальнейшем. Предположим, например, что нужно создать онтологию для данной предметной области, поскольку эта предметная область описана в учебниках по какой-либо данной научной дисциплине. Онтология должна быть разработана таким образом, чтобы представлять типы сущностей, описанные в учебниках; но она должна делать это таким образом, чтобы ее можно было связать с другими онтологиями, охватывающими соседние домены, включая домены, распознающие сущности на разных уровнях детализации. Подразумевается, что онтологии не должны разрабатываться изолированно друг от друга, а скорее всегда в тандеме с онтологиями, с которыми они должны взаимодействовать. В более общем плане, адекватная структура для разработки онтологии должна допускать сущности на нескольких уровнях детализации (как, например, в биологии, где адекватная общая структура должна допускать — по крайней мере — молекулы, клетки, органы, организмы и популяции) и множество различных видов отношений между сущности на этих разных уровнях.
Дополнительные принципы проектирования онтологий
В то время как вышеприведенные четыре принципа представляют собой общие теоретические точки зрения на проектирование онтологий, следующие четыре являются более конкретными рекомендациями, касающимися самого процесса проектирования.
5. Принцип повторного использования
Онтологам не следует изобретать велосипед заново. Первым шагом в разработке онтологии всегда должно быть изучение существующих ресурсов онтологии в предметной области и вокруг нее, чтобы определить уже доступный контент, соответствующий научным и онтологическим стандартам. Онтологии должны повторно использовать, насколько это возможно, релевантный онтологический контент, который уже был создан; и даже там, где этот контент не может быть использован повторно, его следует рассматривать как формирующий эталон, который можно использовать для оценки адекватности создаваемого нового контента. Онтологии предназначены для поддержки связи между информационными ресурсами, относящимися к множеству областей реальности и к множеству дисциплин, которые стремятся их описать. В этом отношении их можно сравнить с системами автомобильных дорог. Очень редко случается так, что правильное решение онтологической проблемы эквивалентно игнорированию всех уже существующих дорог и созданию совершенно новой системы автомобильных дорог с нуля. В то же время, однако, следует подчеркнуть, что — именно потому, что онтологи так часто игнорировали принципы проектирования, подобные представленным здесь, и потому, что они сами часто создавали новые онтологии с нуля - большая часть доступного контента онтологий низкого качества, и поэтому должная осмотрительность требуется не только в выявление потенциальных онтологий для повторного использования, а также оценка идентифицированных онтологий (и в некоторых случаях рекомендация исключить их из дальнейшего использования).
6. Процесс проектирования онтологии должен обеспечивать баланс между полезностью и реализмом
Следствием реализма является то, что некоторые репрезентативные схемы лучше других, потому что они лучше отражают реальность. Учитывая, что некоторые корни построения онтологий лежат в области того, что иногда называют инженерией знаний, где преобладают сугубо практические мотивы, часто утверждается, что онтологии следует измерять не этим глобальным стандартом адекватности реальности — стандартом, адаптированным из области науки в целом, — а скорее по их полезности для какой-то конкретной местной цели. Однако, с нашей точки зрения, этот акцент на локальной полезности понимается неправильно, если он рассматривается как предполагающий принесение в жертву адекватности реальности, для представления которой конструируется онтология. Ибо именно эта реальность — как описано в лучших современных научных изданиях — обеспечивает общий ориентир, который может гарантировать согласованную разработку онтологий. Онтологии действительно могут быть разработаны в отсутствие такого эталона, но тогда, когда они используются для аннотирования данных, результаты невозможно будет объединить - за исключением, возможно, значительных ручных усилий — с данными, собранными другими пользователями в соседних доменах. Один из уроков, извлеченных из более чем пятнадцатилетнего опыта работы с онтологией генов, заключается в том, что цель, для которой изначально создается онтология, может существенно отличаться от того, что оказывается важным вторичным использованием, которого нельзя было предвидеть, когда онтология была впервые задумана.
7. Процесс проектирования Онтологии Является открытым
Рассмотренные до сих пор принципы обеспечивают основу для понимания еще одного важного аспекта проектирования онтологий: разработка онтологии предметной области, по крайней мере, в научных областях, представляющих для нас здесь первостепенный интерес, является лишь первым шагом в открытом процессе постоянного поддержания, оценки, обновления и корректировки онтологии, и адаптации онтологии к соседним онтологиям, чтобы учитывать достижения как в области научных знаний, так и в наших знаниях об онтологии и связанных с ней логических и вычислительных технологиях. Реализм подразумевает, что главной целью хорошей онтологии в поддержку научных исследований является адекватное представление реальности. Но это также подразумевает, что в научных областях мы на любом данном этапе почти всегда располагаем лишь частичной информацией о рассматриваемой реальности. Таким образом, наша стратегия навязывает нам принцип, согласно которому онтологии должны разрабатываться таким образом, чтобы их можно было расширять и изменять с течением времени, и принципы наилучшей практики, которые мы будем обсуждать далее, предназначены для достижения этой цели. Обратите внимание, что это правило согласуется с тем фактом, что у разработчика онтологий будут практические ограничения, вытекающие из того факта, что ресурсы для заполнения онтологии ограничены экономическими и другими обстоятельствами. Ибо, хотя те ветви онтологии, которые связаны с наиболее неотложными потребностями, будут разработаны наиболее детально, совокупность таких ветвей будет более полезной, если управлять ею в рамках общей структуры, которая может обеспечить согласованную совокупность соседних ветвей в будущем.
8. Принцип низко висящих плодов
Последний общий принцип, который следует иметь в виду, заключается в следующем: при разработке онтологии предметной области начните с определения тех характеристик предметной области, которые являются наиболее простыми и ясными для понимания и определения. Другими словами, онтолог должен начать со сбора низко висящих плодов с дерева онтологии, включая то, что для человека может показаться тривиальными утверждениями (например, клеточная мембрана - это мембрана), но что для компьютеров, которые будут обрабатывать онтологию, является незаменимым. При построении онтологии предметной области мы начинаем с классификации простых универсалий и отношений в первую очередь. Как правило, разработчик онтологии должен начать с определения общих терминов, наиболее часто используемых в начальных главах соответствующих вводных учебников, и двигаться дальше, шаг за шагом, к представлению более сложных сущностей в предметной области. Принципы проектирования онтологий, которые были рассмотрены до этого момента, кратко изложены во вставке 3.1.
Общие принципы проектирования онтологий |
---|
1. Реализм: цель онтологии - описать реальность. 2. Перспективизм: существует множество точных описаний реальности. |
Обзор процесса проектирования онтологии предметной области
Онтология - это нисходящий подход к проблеме электронного управления научной информацией. Это означает, что онтолог начинает с теоретических соображений очень общего характера, исходя из предположения, что отслеживание более конкретной информации (например, о конкретных органах, генах или заболеваниях) требует правильного понимания очень общей научной структуры, лежащей в основе этой информации, и делает это систематически и связно мода. Только после того, как это будет сделано, подробное терминологическое содержание конкретной науки, такой как клеточная биология или иммунология, может быть закодировано таким образом, чтобы обеспечить широкую доступность и удобство использования. Метод, которому следует следовать при построении онтологии предметной области на основе этой общей отправной точки, можно кратко изложить в шагах, описанных в таблице 3.1.
Краткое описание шагов, которым необходимо следовать при разработке онтологии предметной области |
---|
1. Разграничьте предмет онтологии. |
2. Соберите информацию: определите общие термины, используемые в существующих онтологиях и в стандартных учебниках; проанализируйте, чтобы устранить избыточность. |
3. Расположите эти термины в иерархии более и менее общих. |
4. Зафиксируйте результат, чтобы обеспечить: a. логическая, философская и научная согласованность, |
5. Формализуйте регламентированный репрезентативный артефакт на языке, пригодном для использования компьютером, таким образом, чтобы результат мог быть реализован в некоторой вычислимой структуре. |
Шаг 1 состоит из определения и разграничения предметной области онтологии, которую необходимо создать. Это будет включать в себя установление характера и объема данных (например, экспериментальных или клинических), которые необходимо аннотировать, и идентификацию существующего содержимого онтологии в соответствующих доменах. Первоначальный обзор содержания соответствующей науки должен дать предварительные ответы на следующие вопросы:
• Каковы универсалии предметной области и отношения, которые необходимо представить?
• Какие подходящие термины, относящиеся к конкретной предметной области, следует использовать для представления этих универсалий и отношений?
• Какие уровни детализации сущностей являются характерными для онтологии?
Шаг 2 - это задача собрать подборку (около пятидесяти) наиболее распространенных терминов весьма общего характера, некоторые из них взяты из соответствующих онтологий, некоторые из стандартных учебников.
Шаг 3 представляет собой предварительное упорядочение этих терминов в иерархии более и менее общих и служит предшественником шага 4.
Шаг 4 состоит в работе над этой иерархией для обеспечения согласованности, например, путем добавления дополнительных терминов для обеспечения полной таксономической иерархии онтологии; и идентификации терминов, относящихся к универсалиям самого высокого уровня в рассматриваемой предметной области, которые будут служить корневым узлом или узлами онтологии разрабатывается. Это также будет включать в себя создание набора понятных человеку определений для выбранных терминов, что будет включать сбор дополнительной информации о наиболее важных универсалиях предметной области, которые охватываются этими универсалиями самого высокого уровня, и идентификацию любых соответствующих терминов в соседних онтологиях, которые понадобятся при формулировании из определений. Начиная с корневых узлов и двигаясь вниз, мы пытаемся определить последовательные роды и отличительные характеристики, которые необходимо будет включить в определения сущностей, подлежащих включению в онтологию; и мы корректируем нашу предварительную схему классификации в свете любых изменений, которые диктуют наши определения.
Процесс регламентации является итеративным и будет включать последовательные циклы проверки версий иерархии терминов и определений на предмет логической, философской и научной адекватности, включая последовательность и понятность для человека, а также обеспечение того, чтобы в результате не были упущены какие-либо существенные элементы предметной области.
Как только таким образом будет достигнуто полное понимание предметной области, этап 5 - это задача итеративного кодирования онтологии посредством логической формализации. Это достигается путем преобразования определений терминов на естественном языке, содержащихся в онтологии, в формат, пригодный для использования на компьютере, с использованием инструмента редактирования онтологии.
Хотя процесс из пяти шагов по своей природе является нисходящим, работая от очень общих к последовательно менее общим терминам в онтологии, на практике он будет включать в себя большое количество циклов обратной связи между последовательными шагами. В следующих разделах мы более подробно обсудим процессы демаркации и сбора информации. В главе 4 мы рассмотрим проблему регламентации, а к вопросам кодирования вернемся в главе 8.
Явно определите предметную область онтологии предметной области
Первым шагом в построении онтологии предметной области является явное определение предполагаемой области применения онтологии, то есть ответ на вопрос: “К какой части реальности относится эта онтология?” Предоставление явного описания этой области будет служить для указания как того, что должно быть включено, так и того, что должно быть исключено из предполагаемой онтологии. Например, документация к Основополагающей модели анатомии (FMA), онтологии анатомии человека, описывает онтологию как “строго ограниченную ”чистой" анатомией, то есть структурной организацией тела"1. Это утверждение проясняет, какие термины являются кандидатами для включения в FMA, но также и то, какие термины следует исключить: те, которые относятся, например, к функциональной анатомии или хирургической анатомии. Спецификация области применения также будет указывать уровень или уровни детализации реальности, в соответствии с которыми откалибрована онтология. Будут ли это многоклеточные организмы, или органы, или клетки, или клеточные компоненты, или молекулы? Или, возможно, это будут целые популяции организмов? Или это будет какая-то комбинация уровней, как в онтологии, которая имеет дело с клеточной сигнализацией и, следовательно, должна представлять, например, как клетки, так и сигнальные пути?
Предметная область и онтологии верхнего уровня
Мы видели, что для целей успешного управления научной информацией в долгосрочной перспективе корневой узел или узлы онтологии предметной области должны быть определены в терминах некоторой очень общей универсалии, взятой из нейтральной к предметной области онтологии, такой как BFO. Это поможет гарантировать, что онтология построена с использованием архитектуры онтологий высокого уровня, которая совместно используется с другими онтологиями. Если, например, отношение part_of утверждается в данной формальной онтологии как транзитивное (так что если x part_of y и y part_of z, то x part_of z будет выполняться), то в онтологии предметной области, построенной на его основе, например, в области анатомии, мы будем возможность использовать эту особенность отношения принадлежности к партии для вывода из части пальца руки и части предплечья тела к части пальца тела. Аналогично, если онтология верхнего уровня содержит различные представления для континуантов (трехмерных сущностей, которые продолжают существовать во времени, таких как планеты и молекулы) и событий (сущностей, которые происходят, что означает, что они распределены не только в пространстве, но и во времени, таких как бейсбольный матч или движение планеты по ее орбите), то все онтологии предметной области, определенные на ее основе, должны будут соблюдать это же различие между объектами, которые она представляет. В этих и ряде других связанных с ними аспектов онтология верхнего уровня помогает обеспечить корректность построения онтологий на более низких уровнях. Если онтология использует part_of, но содержит утверждения, противоречащие транзитивности, то эти утверждения могут быть помечены как нуждающиеся в ручной проверке. Если онтология распознает различие между вещами и процессами, то проблемные случаи — например, такие термины, как “мутация гена”, которые неоднозначны в отношении значений "вещь" и "процесс" - могут быть выявлены заранее и выпущены предупреждения, требующие от разработчиков подвергнуть такие термины дополнительной проверке вручную. BFO был разработан для того, чтобы играть такого рода роль в процессе проектирования онтологий предметной области и обеспечения качества.2 По этим причинам важно в начале разработки онтологии, специфичной для предметной области, рассмотреть, какие онтологические категории и отношения верхнего уровня могут быть применимы к рассматриваемой предметной области, и выбрать онтологию верхнего уровня, представляющую достаточные и достаточно ясные категории и отношения для обработки основных виды сущностей, которые можно найти в рассматриваемом домене. Важно отметить, что, по определению, онтология верхнего уровня должна быть нейтральной к предметной области. Таким образом, он не должен содержать представлений об отношениях и универсалиях, специфичных для какой-либо данной предметной области. Таким образом, по сравнению со многими онтологиями предметной области, определенными в ее терминах, она будет очень маленькой. Онтологический контент, относящийся к каждой конкретной предметной области, затем добавляется к онтологии верхнего уровня в процессе нисходящего заполнения.
Актуальность
Задача определения того, какую часть реальности должна представлять онтология предметной области, включает также решение проблемы определения того, какие и в каком объеме существующие данные и информация о данной предметной области должны быть включены в онтологию. Это можно резюмировать как проблему определения того, что имеет отношение к онтологии, вопрос, который должен определяться (1) текущим состоянием науки и, следовательно, структурой соответствующей части реальности, (2) степенью, в которой можно полагаться на существующие онтологии в соседних областях в поддержке разработки данной онтологии и (3) практическими целями, которым должна удовлетворять онтология. Например, то, что объективно относится к клеточной онтологии (CL), определяется природой самих клеток, тем, что они собой представляют, какие процессы они характерно инициируют или в которые вовлечены, и так далее. Таксономия иммунных клеток CL создана на основе информации о белковых молекулах, экспрессируемых на клеточных поверхностях; представления соответствующих типов молекул взяты из онтологии белков (PRO), чтобы создать такие определения, как следующие: лимфоцит линии В = def. лимфоцит и (имеет_плазма_мембранную часть некоторой молекулы CD19) и (отсутствует_плазма_мембранная часть некоторого эпсилона CD3) Или другими словами: лимфоцит линии В - это лимфоцит, который имеет молекулы CD19 на своей плазматической мембране, но не имеет молекул CD3 на своей плазматической мембране. Здесь “лимфоцит” - это термин более высокого уровня, определенный в CL, “молекула CD19” и “молекула CD3” определены в PRO, а “плазматическая мембрана” определена в ветви клеточных компонентов генной онтологии. Связи между клетками и белками обрабатываются путем построения связей между соответствующими онтологиями таким образом, что информация, собранная в каждой из этих онтологий, объединяется способами, полезными для рассуждения и интеграции. Таким образом, мы также избегаем некоторых опасностей, связанных с образованием "бункеров" — например, когда те, кто интересуется клетками, испытывают искушение разработать свою собственную локальную онтологию поверхностных маркеров белка, онтологию, которая не смогла бы взаимодействовать с другими информационными ресурсами белка. Обеспечение того, чтобы соответствующие онтологии предметной области с самого начала были структурированы на основе одной и той же онтологии верхнего уровня, облегчает приведение их в соответствие необходимым образом. Задача определения того, что должно быть представлено в онтологии, также будет зависеть от практических целей, которым должна удовлетворять онтология. Любая разработка онтологий (как и вся наука) в некоторой степени носит оппортунистический характер: какие части онтологии разрабатываются в первую очередь или с наибольшей детализацией, часто будет зависеть от доступного финансирования, и такое финансирование часто будет привязано к цели. Целенаправленная человеческая деятельность привлекает внимание к некоторым объектам и оставляет другие на заднем плане. Если наша задача состоит в том, чтобы поддержать научное исследование гипотезы, относящейся, скажем, к заболеваниям плода, связанным с лимфоцитами линии В, то сначала мы определим существующие онтологии с соответствующим содержанием. Но наше исследование может потребовать разработки совершенно новой онтологии, сосредоточенной строго на конкретных областях - например, на взаимодействиях между теми или иными конкретными типами клеток и молекул у тех или иных пациентов, проходящих те или иные виды лечения. Эти способы, с помощью которых цель может определять содержание онтологии, отражают различие, введенное в главе 2, между ссылочными онтологиями и онтологиями приложений. Эталонная онтология - это репрезентативный артефакт, аналогичный научной теории, в которой первостепенное значение имеют максимальная выразительная полнота и адекватность фактам реальности. Онтология приложения - это репрезентативный артефакт, предназначенный для оказания помощи в достижении некоторой конкретной цели. Справочные онтологии будут создаваться и структурироваться главным образом на основе установленного содержания научной дисциплины. Онтологии приложений будут создаваться и структурироваться в первую очередь с точки зрения того, что имеет отношение к какой-либо конкретной цели. Однако, чтобы быть успешными в долгосрочной перспективе, прикладные онтологии должны в максимально возможной степени использовать части эталонных онтологий в качестве отправных точек. Разработка прикладных онтологий, таким образом, может также принести пользу работе над справочными онтологиями, например, когда обнаруживается, что термины, созданные в рамках первых, имеют общенаучную значимость, например, тогда эти термины будут повышены до уровня, на котором они станут частью справочной онтологии, доступной для более общих целей. используйте.
Степень детализации
Одной из составляющих проблемы определения релевантности является проблема определения соответствующей степени детализации сущностей, которые должны быть представлены в онтологии. Проблема детализации возникает потому, что вещи в реальности, а также их части, бывают самых разных размеров и обладают разной степенью сложности. Существует континуум, простирающийся от субатомных частиц, атомов и молекул, через обычные объекты, такие как животные, камни и столы, к экосистемам, планетам, солнечным системам, галактикам и, в конечном счете, к самой Вселенной. Аналогичный континуум существует и в сфере процессов, разворачивающихся во времени, простирающихся от миллисекунд до лет и геологических эпох. Вещи и процессы могут быть идентифицированы на всех этих различных уровнях детализации, и по мере того, как мы продвигаемся вверх к последовательно более крупным зернам, мы сталкиваемся с сущностями, которые проявляют черты, не обнаруживаемые на более низких уровнях — феномен, упоминаемый философами под названием “возникновение”. Проблема детализации при проектировании онтологий - это проблема определения прототипных размеров и сложности сущностей, которые должны быть представлены в данной онтологии предметной области. Должна ли онтология гор включать представления о типах молекул, из которых состоят горы? Должна ли онтология стадий жизненного цикла растения включать стадии роста отдельных листьев? При разработке онтологии выбор корневых узлов будет частично определять уровень или уровни детализации, которые будут составлять часть охвата онтологии, но на это определение будут влиять в первую очередь потребности пользователей онтологии - например, в отражении степень, в которой более тонкие градации таксономии позволяют регистрировать различия в данных практически полезного рода.
Проблема несуществующего
Как только определена предметная область или область охвата онтологии, необходимо провести систематический обзор содержания общепринятой науки, относящейся к этой предметной области. Это означает, прежде всего, изучение текущего содержания авторитетных учебников и характерной терминологии. Таким образом, онтологии относятся в первую очередь к использованию общих терминов в устоявшихся науках. В таких областях, как химия, онтологии могут использоваться для представления типов сущностей, которые не существуют — например, еще не синтезированных молекул, — но в целом правило таково, что онтологии должны состоять из представлений только тех типов, для которых у нас есть веские доказательства существования экземпляров (и, расширяя, только из тех определенных классов, для которых у нас есть веские доказательства наличия членов). Очень иногда может потребоваться разработка онтологий для поддержки исследований в областях, которые все еще являются предметом споров между различными группами ученых и, следовательно, не относятся к устоявшейся науке. (Вспомним, опять же, случай с “бозоном Хиггса”.) Мы предпочитаем рассматривать такие онтологии как временные по своей природе, которые будут переведены в ранг собственно онтологий только тогда, когда соответствующие споры будут урегулированы. Методы создания таких предварительных онтологий тогда будут по существу такими же, как описанные здесь, но процесс выбора термина будет применяться не к существующим учебникам, а, например, к журнальным статьям, подготовленным некоторым подмножеством спорящих партнеров. Результаты такой предварительной разработки онтологии тогда также будут предварительными. Они смогут быть добавлены к существующему содержимому онтологии и рассматриваться как другие онтологии только после того, как соответствующие споры будут разрешены.
Вывод
В этой главе мы представили некоторые общие принципы проектирования онтологий и представили обзор двух начальных этапов процесса построения онтологии, а именно: разграничение предметной области онтологии и сбор информации о предметной области. В следующей главе мы обсудим третий шаг процесса построения онтологии: регламентацию, которая более подробно рассматривает вопросы выбора терминологии, определения и классификации.