обработка слабоструктурированных веб-документов на основе облачных технологий Semantic Social Web
Яблонский Сергей Александрович
Санкт-Петербургский государственный университет
кафедра информационных технологий в менеджменте
Высшая школа менеджмента
Санкт-Петербург, Россия
serge_yablonsky@hotmail.com
Концепция Semantic Web (SW), предложенная Тимом Бернерс-Ли (Tim Berners-Lee), заключается в организации такого представления информации в сети, чтобы допускалась не только ее визуализация, как это происходит сейчас, но и эффективная автоматическая обработка. В настоящее время происходит все большее осознание важности поставленных в проекте SW задач.
Определены следующие этапы развития WWW:
Web 1.0 – объединение в информационные сети (этап пройден, информация постоянно пополняется);
Web 2.0 – объединение в социальные сети – Social Web;
Web 3.0 – объединение в семантические сети – Semantic Web;
Web 4.0 – Semantic Social Web – такое объединение информационных, социальных и семантических сетей, когда и люди, и компьютеры в сети смогут общаться и получать знания наравне друг с другом (перспектива).
При этом каждый новый этап интегрирует в себя все уже существующие на данный момент подходы и компоненты сети. Очевидно, что Web 3.0 и Web 4.0 основываются на технологиях SW.
Одновременно наблюдается определенный разрыв между современными технологиями обработки текстов на естественных языках (ЕЯ) и веб-документов c целью извлечения информации из них, существующими онтологическими ресурсами SW и уровнем автоматизации обработки слабоструктурированных документов порождаемых технологиями Web 2.0 в Интернете и корпоративных Интранет/Экстранет сетях.
В докладе приводится классификация ресурсов Web 2.0/3.0.
В то время как семантические ресурсы сети, в том числе онтологии, создаются все в больших объемах, гораздо медленнее идет обогащение существующих веб-документов в сети метаинформацией, необходимой для полноценного функционирования технологий SW.
Исследование методов формирования, хранения и обработки метаинформации для широкого класса слабоструктурированных веб-документов становится приоритетной задачей. Поэтому усилия специалистов сосредоточены на создании методов и средств автоматического и/или автоматизированного аннотирования веб-контента под управлением онтологий, причем в рассмотрение вовлекается не только статический веб-контент, представленный в Интернете, но и информация из баз данных и других RDF-источников Интернета (Wikipedia, DBPedia, LOD, WordNet и др.). Данный подход предполагает разработку инструментальных средств конвертирования существующего text/HTML-контента в RDF/OWL-метаданные, а также систем извлечения информации из текстов (Information Extraction – IE-систем) на основе технологий Теxt Mining, Social и Semantic Web.
Таким образом, целью обработки документов в сети становится не просто получение внутреннего представления его смысла, а представление результатов в форматах, удобных для эффективного хранения и извлечения знаний посредством мотивации пользователей сети (Social Web) создавать веб-документы для последующего использования в RDF/OWL-форматах.
Одновременно с развитием технологий Semantic Social Web происходят существенные изменения и в программно-аппаратной платформе Интернета на основе внедрения облачных вычислений (Cloud Computing), которые являются одним из наиболее перспективных инновационных направлений развития сервисных информационных технологий (ИТ).
Облачные сервисы рассматриваются в докладе как основа создания и обработки ресурсов Web 2.0/3.0.
Облачные сервисы (Cloud Services) – это товары, услуги и решения для потребителей и предпринимателей, которые поставляются и потребляются в режиме реального времени через Интернет.
Облачные вычисления (Cloud Computing) – это новая модель разработки, развертывания и доставки облачных сервисов.
Полная онтология облачных вычислений рассмотрена в [Yablonsky S., 2010] и частично приводится в докладе.
Современный этап развития исследований и разработок в области автоматической/автоматизированной обработки веб-документов характеризуется следующим:
для существующих больших и сверхбольших коллекции неструктурированных документов и веб-документов используются известные методы компьютерной обработки текстов на естественном языке для извлечения информации (Information Extraction - IE);
для неструктурированных и появившихся в социальных сетях, блогах, форумах, wiki слабоструктурированных веб-документов разрабатываются специальные методы аннотирования и извлечения информации с использованием онтологий (Ontology Based IE - OBIE).
Для извлечения RDF/OWL-данных из сети, их категоризации, хранения и обработки предложена общая архитектура программных средств на основе Oracle 11g, состоящая из следующих основных компонентов [Yablonsky S., 2009]:
RDF/OWL-хранилище;
подсистема для извлечения RDF/OWL-данных (Tools for information extraction);
подсистема для онтологического инжиниринга (Tools for Ontology Engineering Modeling Process);
подсистема для извлечения знаний на основе SPAROL/SQL-средств поиска и анализа (Knowledge mining, SPAROL/SQL search and analysis tools).
Учитывая большие и сверхбольшие объемы веб-документов из вышеприведенных коллекций, целесообразно перенесение такой системы в облако для использования всех преимуществ облачных вычислений. Описывается архитектура системы извлечения, категоризации, хранения и обработки RDF/OWL-данных на основе облачных сервисов Amazon Web Services (AWS).
Благодарности. Работа выполнена при финансовой поддержке РФФИ (грант РФФИ 10-07-90005).
Список литературы
[Yablonsky S., 2009] Yablonsky S. Semantic Web Framework for Development of Very Large Ontologies // POLIBITS, Issue 39, (January-June 2009), Special issue: Natural Language Processing and Knowledge Management, pp. 19–26.
[Yablonsky S., 2010] Yablonsky S.A. Cloud Service Innovation Ontology Development. – XXI ISPIM Conference - The Dynamics of Innovation - Bilbao, Spain, 6– 9 June 2010.