Создание онтологии на основе Basic Formal Ontology
Данный материал написан по материалам книги "Building ontologies with Basic Formal Ontology" (Arp, Robert ; Smith, Barry & Spear, Andrew D. (2015). Building Ontologies with Basic Formal Ontology. Cambridge, MA: MIT Press)
Принципы наилучшей практики I: Проектирование онтологии предметной области
В главах 1 и 2 онтология была определена как репрезентативный артефакт, представления которого предназначены для обозначения универсалий, определенных классов и отношений между ними. Мы также ввели некоторые различия между различными типами онтологий и представили идею таксономии как центрального компонента онтологии. В свете всего этого проблема проектирования онтологии - это проблема проектирования формализованного репрезентативного артефакта, включающего таксономическую иерархию в качестве основы, чьи представления (термины) обозначают универсалии, определенные классы и отношения между ними. В этой и следующей главах мы обсудим, как этот процесс выглядит на практике, сосредоточив внимание на соображениях и принципах, связанных с разработкой справочных онтологий предметной области, полезных для поддержки научных исследований. Вопросы, которые будут рассмотрены в этой главе, включают в себя: предмет и область применения онтологии предметной области, а также первые шаги, которые следует предпринять при разработке самой онтологии.
Общие принципы проектирования онтологий
Сначала мы изложим принципы, определяющие общее отношение или мировоззрение, которые следует иметь в виду при разработке онтологии. Наша позиция заключается в том, что хорошей онтологией будет та, которая разработана таким образом, чтобы соблюдать эти принципы, и что, действительно, соблюдение этих принципов будет частью того, что делает онтологию хорошей.
1. Реализм
Мы уже обсуждали нашу приверженность реализму в главе 1. В целом, “реалистизм” можно определить как философскую позицию, согласно которой реальность и ее составляющие существуют независимо от наших (лингвистических, концептуальных, теоретических, культурных) представлений и могут быть познаны, например, посредством перцептивного опыта и применения научного метода. Цель науки, с этой реалистической (и, как мы полагаем, здравомыслящей) точки зрения, состоит в том, чтобы открывать истины о реальности. Реализм в онтологии также основан на идее о том, что с помощью науки мы можем познать общие черты реальности в виде универсалий и отношений между ними. Этот реалистический подход имеет ряд общих последствий. Во-первых, это подразумевает, что онтологии являются репрезентациями реальности, а не концепциями людей, ментальными репрезентациями или использованием языка. Конечно, онтология, например, когнитивной психологии или лингвистики, может содержать концепции, ментальные репрезентации или способы использования языка в рамках своего предмета. Но тогда последние рассматривались бы как части реальности в точности аналогично тому, что имеет место, например, в онтологии астрофизики или в развитии растений. Многие разделы науки относятся к сущностям, таким как химические элементы, клетки прокариот или горные породы палеопротерозоя, которые существовали задолго до появления первых людей. Другие разделы науки относятся к сущностям — например, в области права или экономики, — которые существуют в результате человеческой мысли и деятельности. Онтологический реализм в равной степени применим ко всем отраслям науки, исходя из того, что, например, обеспеченные долговые обязательства не менее реальны, чем электроны и планеты.
2. Перспективизм
Цель науки состоит не просто в том, чтобы открывать истины о реальности. Его цель - разработать теории, которые были бы настолько точными, настолько широкомасштабными, настолько прогнозирующими, настолько объясняющими, настолько логически последовательными и настолько хорошо проверенными, насколько это возможно. К сожалению, эти цели — и ряд других целей, которые также считаются привлекательными, таких как максимальное соответствие здравому смыслу, — по-видимому, не могут быть реализованы одновременно. Чтобы справиться с этим фактом, мы придерживаемся доктрины перспективизма. Перспективизм проистекает из признания того, что реальность слишком сложна и разнообразна, чтобы охватить ее во всей полноте в рамках одной научной теории. Это сводится к принципу, согласно которому две различные научные теории могут быть одинаково точными представлениями об одной и той же реальности. Это, конечно, не означает, что все представления, созданные учеными, имеют равную ценность. Точка зрения, согласно которой рыбы являются млекопитающими, явно имела бы меньшую ценность, чем противоположная точка зрения, поскольку она была бы менее точной по отношению к фактам реальности. Но, тем не менее, существует множество различных репрезентаций, которые являются одинаково хорошими (истинными, достоверно подтверждаемыми) репрезентациями некоторой данной части реальности именно потому, что они отражают различные особенности этой реальности. Наиболее очевидные примеры различных, но одинаково обоснованных точек зрения на одну и ту же область реальности связаны с феноменом детализации. Проще говоря, одинаково правомерно изучать живые организмы как с точки зрения молекулярной биологии, так и с точки зрения, учитывающей анатомию и физиологию на уровне органов и систем органов. Одинаково правомерно рассматривать человеческое поведение как с точки зрения физики сенсомоторной системы человека, так и с точки зрения экономических стимулов. Каждая из упомянутых точек зрения может внести свой вклад в наши знания о реальности, которые точно соответствуют текущей реальности. Последствия перспективизма для онтологии заключаются в том, что несводимость различных точек зрения должна соблюдаться также при проектировании онтологий. Разработчики онтологий не должны стремиться представить все части и особенности реальности в единой онтологии, а должны стремиться, скорее, к модульному подходу, при котором каждый модуль поддерживается, насколько это возможно, экспертами в соответствующей научной дисциплине.
3. Фаллибилизм
Фаллибилизм предполагает приверженность идее о том, что, несмотря на то, что наши современные научные теории являются лучшим имеющимся у нас источником утверждений, которые являются кандидатами на выражение истин о реальности, тем не менее, возможно, что некоторые из этих утверждений ложны. Реальность существует независимо от наших способов ее научного понимания, и опыт подсказывает нам, что даже наши лучшие современные теории могут подвергаться корректировке. Таким образом, хотя реалист считает, что наш опыт, идеи и научные теории относятся к реальности — что они в совокупности образуют представление, карту или картинку реальности, — это не означает, что все элементы этой карты верны; некоторые элементы могут неправильно соотноситься, некоторые могут вообще не соотноситься все. Наша карта реальности на любом данном этапе всегда является лишь частичной: реальность никогда не раскрывается ученым во всей своей полноте. И поскольку наше представление постоянно расширяется по мере того, как мы узнаем и открываем для себя больше о том, что существует по ту сторону реальности, то, во что мы верим сегодня, основываясь на том, что мы узнали о тех аспектах реальности, к которым мы до сих пор имели доступ, иногда подрывается тем, что мы узнаем завтра о тех аспектах реальности, которые существовали до сих пор. недооцененный. Процесс корректировки нашей карты реальности сам по себе подвержен множеству различного рода неудач и изменений направления, некоторые (немногие) из которых могут быть радикальными по своей природе (двумя выдающимися примерами являются коперниканская и дарвиновская революции в физике и биологии). Однако, несмотря на все эти изменения и даже на самые радикальные научные революции, основные справочные элементы этой карты остаются нетронутыми. Ученые ошиблись, полагая, что солнце вращается вокруг земли; но, исправив эту ошибку, они продолжали использовать такие термины, как “солнце” и “земля”, для обозначения тех же сущностей, что и раньше. Нечто подобное применимо к таким общим терминам, как “атом”, “звезда”, “организм”, “клетка” и “планета”. Хотя наши представления об этих сущностях менялись со временем, сами эти термины в значительной степени сохранили свое значение благодаря таким изменениям. Однако в то же время фаллибилист признает, что и в отношении общих терминов наши научные знания со временем могут быть перевернуты новыми эмпирическими открытиями, как, например, в уже упомянутом случае с “флогистоном”. Некоторые конкретные последствия фаллибилизма для проектирования онтологий в поддержку научных исследований включают следующее: 3а. Что каждая онтология должна иметь сложные стратегии для отслеживания успешных версий онтологии. Новая версия онтологии становится необходимой, когда обнаруживаются и исправляются ошибки в текущей научной теории предметной области и когда обнаруживается новая информация, относящаяся к предметной области. Пользователи онтологии должны иметь возможность отслеживать такие изменения. 3b. Что каждая онтология должна иметь службу отслеживания для своих пользователей, которая позволит им легко указывать на ошибки и пробелы в онтологии и своевременно рассматривать их заявки в эту службу. Как и сама наука, проектирование онтологий - это непрерывное коллективное предприятие, в котором ошибки могут быть обнаружены и предотвращены с помощью ввода и тестирования нескольких человек.
4. Адекватность
В философских кругах широко распространена тенденция рассматривать цель философии в редукционистских терминах. С этой точки зрения задача философа состоит в том, чтобы объяснять сложные явления, сводя их к более простым и фундаментальным компонентам, опираясь при этом на поразительные успехи современной физики. Адекватизм - это противоположная тенденция, которая утверждает, что сущности в любой данной области следует воспринимать серьезно на их собственных условиях и что в нашем наборе теорий реальности должно быть место для всех различных видов сущностей, которые содержит реальность, на всех уровнях детализации. Для адекватиста все научные дисциплины, на первый взгляд, одинаково ценны в плане представления того, что существует в реальности. Точно так же, как онтология физики посвящена, например, атомам и субатомным частицам, а онтология химии - химическим элементам и соединениям и связанным с ними реакциям, так и онтология биологии будет включать представления универсалий и определенных классов на различных уровнях детализации от молекул и клеток до органов и систем. организмы, а оттуда - популяции и экосистемы. Цель онтологии, с точки зрения сторонника адекватизма, состоит в том, чтобы отдать должное огромному множеству различных видов сущностей, существующих в мире, вместо того, чтобы игнорировать те или иные конкретные виды сущностей или пытаться их объяснить. Именно адекватистский взгляд на онтологию отстаивается в дальнейшем. Предположим, например, что нужно создать онтологию для данной предметной области, поскольку эта предметная область описана в учебниках по какой-либо данной научной дисциплине. Онтология должна быть разработана таким образом, чтобы представлять типы сущностей, описанные в учебниках; но она должна делать это таким образом, чтобы ее можно было связать с другими онтологиями, охватывающими соседние домены, включая домены, распознающие сущности на разных уровнях детализации. Подразумевается, что онтологии не должны разрабатываться изолированно друг от друга, а скорее всегда в тандеме с онтологиями, с которыми они должны взаимодействовать. В более общем плане, адекватная структура для разработки онтологии должна допускать сущности на нескольких уровнях детализации (как, например, в биологии, где адекватная общая структура должна допускать — по крайней мере — молекулы, клетки, органы, организмы и популяции) и множество различных видов отношений между сущности на этих разных уровнях.
Дополнительные принципы проектирования онтологий
В то время как вышеприведенные четыре принципа представляют собой общие теоретические точки зрения на проектирование онтологий, следующие четыре являются более конкретными рекомендациями, касающимися самого процесса проектирования.
5. Принцип повторного использования
Онтологам не следует изобретать велосипед заново. Первым шагом в разработке онтологии всегда должно быть изучение существующих ресурсов онтологии в предметной области и вокруг нее, чтобы определить уже доступный контент, соответствующий научным и онтологическим стандартам. Онтологии должны повторно использовать, насколько это возможно, релевантный онтологический контент, который уже был создан; и даже там, где этот контент не может быть использован повторно, его следует рассматривать как формирующий эталон, который можно использовать для оценки адекватности создаваемого нового контента. Онтологии предназначены для поддержки связи между информационными ресурсами, относящимися к множеству областей реальности и к множеству дисциплин, которые стремятся их описать. В этом отношении их можно сравнить с системами автомобильных дорог. Очень редко случается так, что правильное решение онтологической проблемы эквивалентно игнорированию всех уже существующих дорог и созданию совершенно новой системы автомобильных дорог с нуля. В то же время, однако, следует подчеркнуть, что — именно потому, что онтологи так часто игнорировали принципы проектирования, подобные представленным здесь, и потому, что они сами часто создавали новые онтологии с нуля - большая часть доступного контента онтологий низкого качества, и поэтому должная осмотрительность требуется не только в выявление потенциальных онтологий для повторного использования, а также оценка идентифицированных онтологий (и в некоторых случаях рекомендация исключить их из дальнейшего использования).
6. Процесс проектирования онтологии должен обеспечивать баланс между полезностью и реализмом
Следствием реализма является то, что некоторые репрезентативные схемы лучше других, потому что они лучше отражают реальность. Учитывая, что некоторые корни построения онтологий лежат в области того, что иногда называют инженерией знаний, где преобладают сугубо практические мотивы, часто утверждается, что онтологии следует измерять не этим глобальным стандартом адекватности реальности — стандартом, адаптированным из области науки в целом, — а скорее по их полезности для какой-то конкретной местной цели. Однако, с нашей точки зрения, этот акцент на локальной полезности понимается неправильно, если он рассматривается как предполагающий принесение в жертву адекватности реальности, для представления которой конструируется онтология. Ибо именно эта реальность — как описано в лучших современных научных изданиях — обеспечивает общий ориентир, который может гарантировать согласованную разработку онтологий. Онтологии действительно могут быть разработаны в отсутствие такого эталона, но тогда, когда они используются для аннотирования данных, результаты невозможно будет объединить - за исключением, возможно, значительных ручных усилий — с данными, собранными другими пользователями в соседних доменах. Один из уроков, извлеченных из более чем пятнадцатилетнего опыта работы с онтологией генов, заключается в том, что цель, для которой изначально создается онтология, может существенно отличаться от того, что оказывается важным вторичным использованием, которого нельзя было предвидеть, когда онтология была впервые задумана.
7. Процесс проектирования Онтологии Является открытым
Рассмотренные до сих пор принципы обеспечивают основу для понимания еще одного важного аспекта проектирования онтологий: разработка онтологии предметной области, по крайней мере, в научных областях, представляющих для нас здесь первостепенный интерес, является лишь первым шагом в открытом процессе постоянного поддержания, оценки, обновления и корректировки онтологии, и адаптации онтологии к соседним онтологиям, чтобы учитывать достижения как в области научных знаний, так и в наших знаниях об онтологии и связанных с ней логических и вычислительных технологиях. Реализм подразумевает, что главной целью хорошей онтологии в поддержку научных исследований является адекватное представление реальности. Но это также подразумевает, что в научных областях мы на любом данном этапе почти всегда располагаем лишь частичной информацией о рассматриваемой реальности. Таким образом, наша стратегия навязывает нам принцип, согласно которому онтологии должны разрабатываться таким образом, чтобы их можно было расширять и изменять с течением времени, и принципы наилучшей практики, которые мы будем обсуждать далее, предназначены для достижения этой цели. Обратите внимание, что это правило согласуется с тем фактом, что у разработчика онтологий будут практические ограничения, вытекающие из того факта, что ресурсы для заполнения онтологии ограничены экономическими и другими обстоятельствами. Ибо, хотя те ветви онтологии, которые связаны с наиболее неотложными потребностями, будут разработаны наиболее детально, совокупность таких ветвей будет более полезной, если управлять ею в рамках общей структуры, которая может обеспечить согласованную совокупность соседних ветвей в будущем.
8. Принцип низко висящих плодов
Последний общий принцип, который следует иметь в виду, заключается в следующем: при разработке онтологии предметной области начните с определения тех характеристик предметной области, которые являются наиболее простыми и ясными для понимания и определения. Другими словами, онтолог должен начать со сбора низко висящих плодов с дерева онтологии, включая то, что для человека может показаться тривиальными утверждениями (например, клеточная мембрана - это мембрана), но что для компьютеров, которые будут обрабатывать онтологию, является незаменимым. При построении онтологии предметной области мы начинаем с классификации простых универсалий и отношений в первую очередь. Как правило, разработчик онтологии должен начать с определения общих терминов, наиболее часто используемых в начальных главах соответствующих вводных учебников, и двигаться дальше, шаг за шагом, к представлению более сложных сущностей в предметной области. Принципы проектирования онтологий, которые были рассмотрены до этого момента, кратко изложены во вставке 3.1.
Обзор процесса проектирования онтологии предметной области
Онтология - это нисходящий подход к проблеме электронного управления научной информацией. Это означает, что онтолог начинает с теоретических соображений очень общего характера, исходя из предположения, что отслеживание более конкретной информации (например, о конкретных органах, генах или заболеваниях) требует правильного понимания очень общей научной структуры, лежащей в основе этой информации, и делает это систематически и связно мода. Только после того, как это будет сделано, подробное терминологическое содержание конкретной науки, такой как клеточная биология или иммунология, может быть закодировано таким образом, чтобы обеспечить широкую доступность и удобство использования. Метод, которому следует следовать при построении онтологии предметной области на основе этой общей отправной точки, можно кратко изложить в шагах, описанных в таблице 3.1.
Шаг 1 состоит из определения и разграничения предметной области онтологии, которую необходимо создать. Это будет включать в себя установление характера и объема данных (например, экспериментальных или клинических), которые необходимо аннотировать, и идентификацию существующего содержимого онтологии в соответствующих доменах. Первоначальный обзор содержания соответствующей науки должен дать предварительные ответы на следующие вопросы: • Каковы универсалии предметной области и отношения, которые необходимо представить? • Какие подходящие термины, относящиеся к конкретной предметной области, следует использовать для представления этих универсалий и отношений? • Какие уровни детализации сущностей являются характерными для онтологии?
Шаг 2 - это задача собрать подборку (около пятидесяти) наиболее распространенных терминов весьма общего характера, некоторые из них взяты из соответствующих онтологий, некоторые из стандартных учебников.
Шаг 3 представляет собой предварительное упорядочение этих терминов в иерархии более и менее общих и служит предшественником шага 4. Шаг 4 состоит в работе над этой иерархией для обеспечения согласованности, например, путем добавления дополнительных терминов для обеспечения полной таксономической иерархии онтологии; и идентификации терминов, относящихся к универсалиям самого высокого уровня в рассматриваемой предметной области, которые будут служить корневым узлом или узлами онтологии разрабатывается. Это также будет включать в себя создание набора понятных человеку определений для выбранных терминов, что будет включать сбор дополнительной информации о наиболее важных универсалиях предметной области, которые охватываются этими универсалиями самого высокого уровня, и идентификацию любых соответствующих терминов в соседних онтологиях, которые понадобятся при формулировании из определений. Начиная с корневых узлов и двигаясь вниз, мы пытаемся определить последовательные роды и отличительные характеристики, которые необходимо будет включить в определения сущностей, подлежащих включению в онтологию; и мы корректируем нашу предварительную схему классификации в свете любых изменений, которые диктуют наши определения.
Процесс регламентации является итеративным и будет включать последовательные циклы проверки версий иерархии терминов и определений на предмет логической, философской и научной адекватности, включая последовательность и понятность для человека, а также обеспечение того, чтобы в результате не были упущены какие-либо существенные элементы предметной области. Как только таким образом будет достигнуто полное понимание предметной области, этап 5 - это задача итеративного кодирования онтологии посредством логической формализации. Это достигается путем преобразования определений терминов на естественном языке, содержащихся в онтологии, в формат, пригодный для использования на компьютере, с использованием инструмента редактирования онтологии. Хотя процесс из пяти шагов по своей природе является нисходящим, работая от очень общих к последовательно менее общим терминам в онтологии, на практике он будет включать в себя большое количество циклов обратной связи между последовательными шагами. В следующих разделах мы более подробно обсудим процессы демаркации и сбора информации. В главе 4 мы рассмотрим проблему регламентации, а к вопросам кодирования вернемся в главе 8.