авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Астрологический Прогноз на год: карьера, финансы, личная жизнь


Pages:   || 2 |
-- [ Страница 1 ] --

Конференция

Большие

Данные

в национальной экономике

Тезисы докладов

22 октября 2013 года, ЦВК «Экспоцентр»

Конференция

«Большие Данные в национальной экономике»

Ключевым фактором успеха для многих отраслей российской экономики становится воз-

можность эффективно обрабатывать огромные массивы и потоки информации. Поиск опти-

мальных способов обработки больших объемов данных приобретает важнейшее значение

для развития перспективных направлений науки и индустрии, таких как биоинформатика, энергетика нового поколения, экономическое моделирование, социология и др.

Сегодня уже очевидно, что Большие Данные — одно из ключевых направлений компью терной науки, открывающее новые перспективы для исследований в сфере представления, анализа и извлечения полезных знаний из больших объемов данных различной природы.

Цель конференции «Большие данные в национальной экономике» — собрать отече ственных экспертов в области анализа данных, с тем чтобы оценить общее состояние дел в этой области, выделить и консолидировать наиболее значимые работы и коллективы, спо собные сделать вклад в формирование нового направления науки и индустрии и тем самым способствовать дальнейшему развитию национальной экономики России.

Оргкомитет конференции «Большие Данные в национальной экономике» выражает признательность за поддержку Российскому фонду фундаментальных исследований (грант 13-07-06055-г), Институту проблем информатики РАН, компаниям «ЕС-Лизинг» и «Информ-Консалтинг».

Тематика конференции «Большие Данные в национальной экономике»:

Пленарная сессия. Платформы и методы обработки Больших Данных Секция. Большие Данные в науке и индустрии Секция. Большие Данные и общество Тезисы докладов конференции «Большие Данные в национальной экономике» (Мо сква, 22 октября 2013 г.). /[Под ред. Дубовой Н.А.]. — М.: «Открытые системы», 2013. — 53 с.

В сборник трудов включены доклады конференции «Большие Данные в националь ной экономике», прошедшей 22 октября 2013 года в Москве в рамках XXIV выставки Softool-2013.

Целями конференции были обсуждение актуальных вопросов в области обработки и анализа больших объемов данных, представление результатов научно-практических ис следований и консолидация наиболее значимых работ и коллективов, способных сде лать вклад в формирование этого нового направления науки и индустрии, а также оценка перспектив создания новых учебных программ для подготовки специалистов соответ ствующей квалификации (data scientists). Материалы сборника предназначены для науч ных сотрудников, преподавателей, аспирантов и студентов, а также любых специалистов, интересующихся проблемами Больших Данных.

Подробную информацию о конференции «Большие Данные в национальной экономике»

можно найти по адресу www.ospcon.ru.

© Copyright 2013 ЗАО «Открытые системы»

2 Big Data Конференция «Большие Данные в национальной экономике»

22 октября 2013 года, ЦВК «Экспоцентр»

Организационный комитет академик РАН, член президиума РАН, Гуляев Юрий Васильевич директор ИРЭ им. В. А. Котельникова РАН, председатель оргкомитета научный редактор журнала Дубова Наталия Аркадиевна «Открытые системы. СУБД», зам. председателя оргкомитета чл.-корр. РАН, зав. отделом ИСА РАН Арлазаров Владимир Львович с.н.с. ИПМ им. М. В. Келдыша РАН, Волков Дмитрий Владимирович гл. редактор журнала «Открытые системы. СУБД»

д.т.н., декан факультета ВМК ННГУ Гергель Виктор Павлович им. Н. И. Лобачевского академик РАН, президент Кузнецов Николай Александрович Международного союза приборостроителей чл.-корр. РАН, зав. кафедрой МФТИ Никитов Сергей Аполлонович д.т.н., профессор, ВМК МГУ Сухомлин Владимир Александрович им. М. В. Ломоносова Москва, 22 октября 2013, www.ospcon.ru Пленарная сессия. Платформы и методы обработки Больших Данных Перспективы работы с большими объемами данных Черняк Л.С. (cherniak@osp.ru) — научный редактор, журнал «Откры тые системы»

Кто-то удачно сравнил происходящее сейчас с окончанием каменного века. Тогда чело век научился извлекать металл из руды, а сейчас — информацию из данных. Интернет, сен сорная революция, бесчисленные медийные устройства привели к тому, что порождается невероятное, немыслимое еще десять лет назад количество новой руды современной куль туры. Именно это не совсем удачно назвали Большими Данными.

В 1998 году термин Big Data впервые использовал Джон Мэши, главный ученый Silicon Graphics. Тогда термин не получил широкого распространения, поскольку Мэши предска зывал будущий рост данных и его значение, адресуясь к узкому кругу коллег. Свою нынеш нюю популярность словосочетание Big Data обрело после известных публикаций в журнале Nature в 2008 году, где обсуждались проблемы, вызванные ростом объемов данных, полу чаемых в процессе проведения современных научных экспериментов, и, как следствие, в связи с появлением нового поколения науки, называемого электронной наукой (e-science).

За прошедшие с момента выхода статьи пять лет этот термин получил более широкое рас пространение и был хорошо освоен маркетингом. Он вошел в обиход бизнес-компьютинга, причем стал использоваться с такой невероятной интенсивностью, что, еще не будучи доста точно понят, стал вызывать негативную эмоциональную реакцию у некоторых специалистов.

Как бы ни были сложны и важны технологии работы с данными, они остаются инстру ментами. Есть следующий уровень, ради которого эти инструменты создаются. Прежде всего тектонический сдвиг, отличающий существующий компьютинг от компьютинга будущего, — это переход от программируемого компьютинга к когнитивному компьютингу. Во вторую очередь надо назвать возвращение искусственного интеллекта. Кроме того, предпринима ются первые шаги к формированию экономики нового типа — экономики обратной связи (feedback economy).



Почему в этом перечне нет Data Science? Казалось бы, об этом сейчас так много говорят и пишут. Прежде всего потому, что это понятие еще недостаточно определено, что в ряде случаев освобождает употребляющих этот термин от необходимости глубже погрузиться в суть происходящего. Кроме того, очевидно, что Data Science нельзя переводить буквально как «наука о данных», поскольку в английском science — не только «наука», но еще и «ма стерство», «искусство» и «умение». Следовательно, Data Science точнее было бы интерпре тировать еще и как умение, а в некоторых случаях — и искусство, работать с данными. Такая интерпретация точнее отражает специфику деятельности data scientists, не занимающихся изучением данных, а использующих свой комплекс знаний и навыков для получения требуе мых результатов при анализе данных.

Раньше других непривычный пока термин «когнитивный компьютинг» в широкий оборот ввела корпорация IBM. Там считают, что когнитивный компьютинг — это качественно новое явление, которое знаменует собой наступление объявленной IBM третьей эры в компьютинге.

Первой была эра табуляторов, которая началась с дифференциальной машины Чарльза Бэб 4 Big Data биджа и достигла своего расцвета усилиями Германа Холлерита, создавшего производитель ные электромеханические табуляторы и основавшего компанию Tabulating Machine Company, позже преобразованную в IBM. Следующая, вторая эра — нынешняя, она ассоциируется с про граммируемой схемой Джона фон Неймана, из которой следует обработка данных по заранее заданной программе. Что же касается когнитивного компьютинга в его нынешнем виде, то это не полный отказ от схемы фон Неймана — скорее некоторый паллиатив, который предполага ет отказ от схемы на верхнем уровне при сохранении традиционных процессоров.

В полном смысле когнитивный компьютер, то есть не содержащий в себе следов ней мановского наследия, еще не существует. Работа над его созданием ведется, например, в IBM по программе SyNAPSE (Systems of Neuromorphic Adaptive Plastic Scalable Electronics) по заказу агентства DARPA. Предполагается, что он будет нейроморфным, то есть имитирующим деятельность мозга. Близкие по содержанию работы идут в целом ряде лабораторий и уни верситетов США и Европы.

Нынешний подъем интереса к искусственному интеллекту начался с отказа от непродук тивных попыток повторить человеческий мозг и эмулировать человеческую логику. Непред взятому наблюдателю в годы первой волны работ в области искусственного интеллекта было непонятно, зачем заставлять делать машину то, что и без того с успехом делает человек, — например, отвечать на вопросы так, как это делает человек, писать музыку или сочинять сти хи, когда есть такие сферы, где машины могут действовать успешнее человека.

Есть важное отличие прежних работ по искусственному интеллекту от исследований эпохи Больших Данных. В этой области происходит переход, аналогичный переходу от детер минированной ньютоновской к релятивистской физике. Если видеть мир во всей его полно те, а именно эту возможность предоставляют Большие Данные, то приходится признать, что не существует абсолютно детерминированной реальности, что есть вероятность и непред сказуемость событий. Вместе с осознанием такой картины мира дисциплина искусственного интеллекта переходит от классического детерминированного подхода к пониманию сложно сти окружающего мира. На смену расчету, занимавшему монопольное положение, приходят анализ в самых разных формах и майнинг данных.

До сих пор рынок остается единственным способом реализации обратной связи. Внедре нию альтернативных регуляторов, основанных на обратной связи, до последнего времени мешало то, что не было возможности собирать необходимые данные и справляться с огром ными объемами сведений о реальном состоянии экономики. Любые, даже самые сложные технические системы, которые создавались прежде, будь то атомный или химический реак тор, самолет или энергоблок, порождают на порядки меньше данных, чем экономика. Как ни парадоксально, но этого не понимали считавшие себя кибернетиками создатели Киберсина в Чили при власти Сальвадора Альенде и Общегосударственной автоматизированной си стемы управления производством (ОГАС) в СССР. Они по наивности или по каким-то иным соображениям полагали, что, не имея достаточно мощной петли обратной связи, они смогут управлять государством. Невозможность или, скорее, нежелание оценивать реальное со стояние дел с неизбежностью приводит к экономическому диктату. И только сейчас, когда создается мощная информационная инфраструктура, появилась возможность дополнить стихийно сложившиеся регуляторы дополнительными, созданными искусственно, при этом ни в коем случае не претендуя на ту глобальность замыслов, на которую рассчитывали Стаф форд Бир и академик В. М. Глушков.

Москва, 22 октября 2013, www.ospcon.ru Интеграция параллелизма в СУБД с открытым кодом Пан К. С., Соколинский Л. Б. (sokolinsky@gmail.com), Цымблер М. Л. — ЮУрГУ (Челябинск) В настоящее время СУБД с открытым исходным кодом (например, PostgreSQL, MySQL, SQLite и др.) являются надежной альтернативой коммерческим СУБД. PostgreSQL представ ляет собой одну из наиболее популярных СУБД с открытым кодом. Проект PostgreSQL был начат в 1995 году как ответвление от проекта POSTGRES М. Стоунбрейкера и до сих пор раз рабатывается группой энтузиастов. Сначала PostgreSQL отличался от своего предка только наличием SQL-синтаксиса в запросах. На сегодня PostgreSQL представляет собой полно ценную объектно-реляционную СУБД с открытым кодом для практически всех популярных операционных систем. PostgreSQL поддерживает стандарт SQL:2011, ACID-транзакции и хра нимые процедуры на различных языках высокого уровня. Максимальный размер таблицы в PostgreSQL равен 32 Тбайт, максимальный размер поля таблицы — 1 Гбайт. PostgreSQL имеет хорошо документированный код и применяется в многочисленных коммерческих организа циях, госструктурах и университетах (например, Apple, Sun, Cisco, Fujitsu, Red Hat, U.S. State Department, United Nations Industrial Development Organization и др.).

Проект PargreSQL посвящен разработке параллельной СУБД PargreSQL путем внедрения фрагментного параллелизма в СУБД PostgreSQL.

Рис. 1. Фрагментный параллелизм Фрагментный параллелизм (см. рис. 1) подразумевает горизонтальную фрагмента цию каждой таблицы базы данных по дискам кластерной системы. Способ фрагментации определяется функцией фрагментации, которая получает значение некоторой колонки таблицы и выдает номер диска, где хранится данная запись. На каждом узле запускает ся параллельный агент, представляющий собой модифицированный экземпляр СУБД PostgreSQL, который обрабатывает свои фрагменты, и затем частичные результаты слива ются в результирующую таблицу.

6 Big Data Технология внедрения параллелизма кратко может быть описана следующим образом.

При обработке запроса мы добавляем к стандартным шагам (разбор запроса, разрешение представлений, построение плана запроса, выполнение плана запроса) еще два: построение параллельного плана запроса из последовательного плана и балансировка нагрузки узлов кластера при выполнении запроса (см. рис. 2).

Рис. 2. Этапы обработки запроса в СУБД PargreSQL Для реализации фрагментации в синтаксис команды PostgreSQL создания таблиц нами добавлен дополнительный параметр, специфицируя который программист при создании таблицы указывает имя целочисленного поля, используемого для фрагментации. В качестве функции фрагментации берется остаток от деления поля фрагментации на количество вы числительных узлов в кластере.

Нами разработан набор макросов, который подменяет вызовы оригинальных функций PostgreSQL на их PargreSQL-копии и обеспечивает прозрачный переход последовательных приложений PostgreSQL на параллельные приложения PargreSQL.

Наше ноу-хау представляет опера тор обмена EXCHANGE. Оператор обмена EXCHANGE инкапсулирует в себе все ме ханизмы, необходимые для реализации внутриоперационного параллелизма, су щественно облегчает реализацию парал лельных алгоритмов в системах баз данных и делает их более надежными.

Рис. 3. Оператор обмена EXCHANGE Оператор EXCHANGE (см. рис. 3) состоит из четырех операторов: Split, Scatter, Gather и Merge. Split разделяет записи на «свои» (они должны быть обработаны на текущем узле кластера) и «чужие» (их необходимо передать на другой узел). Scatter отправляет «чужие»

записи на соответствующие им узлы. Gather принимает «свои» записи от других узлов.

Merge попеременно выдает результаты Gather и Split. Оператор обмена EXCHANGE встав Москва, 22 октября 2013, www.ospcon.ru ляется в нужные места последовательного плана запроса и реализует пересылки данных между параллельными агентами, необходимые для обеспечения корректности результата запроса.

Нами проведены эксперименты по исследованию ускорения и расширяемости СУБД PargreSQL, а также ее эффективности на задачах класса OLTP (обработки транзакций). Экс перименты проводились на суперкомпьютере «Торнадо ЮУрГУ», который занял 249-е место в 41-й редакции рейтинга TOP500 (июнь 2013 года).

В экспериментах на исследование ускорения выполнялся запрос, предполагающий со единение двух таблиц размерами 3х108 и 7,5х105 записей соответственно. Нами получено ускорение, близкое к линейному (см. рис. 4).

Рис. 4. Результаты экспериментов по исследованию ускорения На том же запросе нами была исследована расширяемость СУБД PargreSQL с использова нием от 1 до 128 узлов, когда одновременно с увеличением количества узлов равно увеличи вается объем данных (от 1,2х106 и 3х105 записей до 1,5х108 и 3,8х106 записей соответственно).

Эксперименты показали (см. рис. 5), что расширяемость близка к линейной.

Рис. 5. Результаты экспериментов по исследованию расширяемости Эффективность СУБД PargreSQL на задачах OLTP измерялась на стандартном тесте TPC C консорциума TPC (Transaction Processing Council), в котором моделируется складской учет.

На конфигурации «12 складов, 30 клиентов» с использованием 12 узлов кластера PargreSQL показал производительность 2,2 млн запросов в минуту.

8 Big Data Рейтинг-лист теста TPC C среди параллельных СУБД, реализованных на кластерах Rank Company System Performance DBMS OS (tpmC) 1 Oracle SPARC SuperCluster 30 249 688 Oracle Database Oracle Solaris with T3-4 Servers 11g R2 Enterprise 10 09/ Edition w/RAC w/ Partitioning 2 IBM IBM Power 780 10 366 254 IBM DB2 9.7 AIX Version 6. Server Model 9179 MHB 3 Oracle Sun SPARC 7 646 486 Oracle Database Sun Solaris Enterprise T5440 11g Enterprise 10/ Server Cluster Edition w/RAC w/ Partitioning SUSU Tornado 2 202 531 PargreSQL Linux CentOS 6. 4 HP GHz-64p 1 184 893 Enterprise Edition Linux AS Это позволяет говорить о том, что PargreSQL входит в пятерку лидеров рейтинга TPC С (см.

таблицу) среди параллельных СУБД, реализованных на кластерных вычислительных системах.

Подводя итоги, можно заключить следующее. Нами реализована параллельная СУБД PargreSQL путем внедрения концепции фрагментного параллелизма в свободную СУБД PostgreSQL. Нами проведены эксперименты, показавшие хорошую масштабируемость PargreSQL в задачах обработки сверхбольших данных. Предложенная технология внедрения параллелизма может быть применена к другим свободным СУБД с открытым кодом, напри мер MySQL.

Кластер-анализ как средство анализа и интерпретации данных Миркин Б. Г. (bmirkin@hse.ru) — НИУ ВШЭ (Москва) Поддержано Программой фундаментальных исследований НИУ ВШЭ через грант «Учитель ученики» 2011–2012, НУГ «Методы визуализации и анализа текстов» 2013 и Научную лаборато рию ЛАВР (Москва) 2010–2013.

Для успеха обработки данных необходима автоматизация выработки заключений.

Кластер-анализ — одно из средств такой автоматизации, пока, к сожалению, далеко не совершенное. Цель доклада — обзор возможностей использования кластер-ана лиза.

Кластер — это совокупность элементов, которые являются однородными или похожими в данной системе признаков.

Цели кластер-анализа [1]: а) структуризация (представление общей структуры данных);

б) описание кластеров в терминах тех или иных признаков;

в) установление взаимосвязи между различными аспектами явлений;

г) формирование обобщающих утверждений о свой ствах данных и явлений;

д) визуализация данных в процессах принятия решений.

Москва, 22 октября 2013, www.ospcon.ru Типичные данные объект-признак — таблица типа реляционной базы данных (фраг мент):

Town Pop PS D Ho Ba Sst Pet DIY Swi Po CAB FM Mullion 2040 1 0 0 2 0 1 0 0 1 0 So Brent 2087 1 1 0 1 1 0 0 0 1 0 St Just 2092 1 0 0 2 1 1 0 0 1 0 St Colum 2119 1 0 0 2 1 1 0 0 1 1 Nanpean 2230 2 1 0 0 0 0 0 0 2 0 Gunnisla 2236 2 1 0 1 0 1 0 0 3 0 Mevagiss 2272 1 1 0 1 0 0 0 0 1 0 Ipplepen 2275 1 1 0 0 0 1 0 0 1 0 Alston 2362 1 0 0 1 1 0 0 0 1 0 Lostwith 2452 2 1 0 2 0 1 0 0 1 0 StColumb 2458 1 0 0 0 1 3 0 0 2 0 Padstow 2460 1 0 0 3 0 0 0 0 1 1 Perranpo 2611 1 1 0 1 1 2 0 0 2 0 Kingsbri 5291 1 1 0 5 3 1 0 1 1 1 Wadebrid 5676 2 0 0 4 4 1 0 0 2 1 Dartmout 6466 4 1 0 8 4 4 0 1 3 1 Launcest 6929 2 1 1 7 2 1 0 1 4 0 Технически кластер — это скопление объектов как точек многомерного пространства (рис.1).

Есть кластеры Нет кластеров Рис. 1. Кластер представляет собой скопление объектов как точек многомерного про странства Ниже представлены примеры применения методов кластер-анализа для продвижения в вышеуказанных целях.

10 Big Data (а) Структуризация (представление общей структуры данных) а1. Структуризация деятельности (совместно с С. Насименто, Лиссабон) Рис. 2. Структура научной тематики работ ЦЕНТРИА, Лиссабон (в таксономии АВМ) Структура научной тематики работ ЦЕНТРИА может быть представлена шестью кластерами тем из классификации компьютерной тематики, разработанной Ассоциацией вычислительных машин (рис. 2, раскрашены в разный цвет). Все кластеры попадают в свои гнезда классифика ции, кроме одного — зеленого. Он отображается сразу в две головные темы: «Программное обеспечение» и «Информационные системы». Это, по идее, обозначает какое-то исследование, ломающее границы между направлениями и, значит, несущее инновации. В данном случае, действительно, одна из крупных тем исследования — новое направление, называемое сейчас Software Engineering, не отраженное в классификации.





а2. Анализ жалоб жителей (совместно с Э. Бабкиным, Нижний Новгород) Сформированы кластеры писем жителей в администрацию города. Они отображены на таксономию городских служб и проблем, решаемых ими (рис. 3).

Москва, 22 октября 2013, www.ospcon.ru Рис. 3. Таксономия потребностей горожан и соответствующих служб города (по пись мам населения) Оказалось, что кластеры писем не «ложатся» в гнезда таксономии, а скорее идут поперек. Вывод:

кластеры потребностей не вписываются в структуру городского хозяйства. Например, при протечке крыши не только нужна помощь плотников, но и требуется ремонт стен, электропроводки и т. п. Сле довательно, нужны комплексные центры услуг для горожанина, которые могли бы оперативно фор мировать бригады для помощи жителям. В Москве подобные центры начали создаваться (и без нас).

(б) Описание кластеров в терминах признаков Проблема определения принадлежности нового химического соединения (совместно с Е. Колосовым и Р. Станфортом) Чтобы применить прогностическую формулу активности того или иного соединения, нужно сначала определить, к какой группе оно относится. Пример — совокупность 14 тыс.

химических соединений (признаки структуры) (рис. 4).

а) б) Рис. 4. Карта химических соединений, автоматически сгруппированных в кластеры (41): а — нашим методом;

б — популярным методом нечетких к-средних 12 Big Data (в) Формирование обобщающих утверждений о свойствах явлений Ростовцев, Миркин, Шанин (1981): исследование заболеваний органов дыхания и их факторов риска в Академгородке г. Новосибирска. Обработано 50 тыс. анкет, получено иерархических кластеров (рис. 5).

Рис. 5. Кластер-анализ заболеваний органов дыхания и их факторов риска Предполагалось, что основными факторами риска являются курение и алкоголь. По полу ченным нами кластерам факторами риска оказались наличие заболевания в семье и плохие жилищные условия, а курение и алкоголь оказались никак не связаны с респираторными заболеваниями.

К сожалению, наши выводы, ставшие сейчас общим местом, тогда были отвергнуты ( год), так как противоречили всем устоявшимся представлениям, — нередкий случай, когда анализ данных оказывается бессилен.

(г) Визуализация данных в процессах принятия решений г1. Кластерный анализ данных по 47 районам Московской области за 1979 и 1988 годы по зволил нам увидеть разрушение структуры факторов прироста населения, произошедшее за эти 9 лет (Панфилова, Миркин, 1990).

Рис. 6. Два кластера в пространстве «сто имость жилья % голосов за кандидата»

Москва, 22 октября 2013, www.ospcon.ru г2. Выборы в Москве (Гурьянов В. Закон Бершидского: стоимость квадратного метра опре делила результаты выборов мэра // Квадратъ. 16 сентября 2013. № 44) (рис. 6): два кластера.

Заключение: «кластеры» являются важной частью автоматизации анализа данных, кото рая еще ждет своей более полной разработки и интеграции в системы анализа данных.

Литература 1. B. Mirkin. Mathematical classification and clustering. Kluwer AP, Dordrecht, 1996.

Стратегические угрозы XXI века в области ИТ: компьютеры против людей шмид а. В. — «еС-лизинг» (Москва) Согласно стратегическому прогнозу развития информатики на период 2005–2015 годов, разработанному в IBM, к 2015 году новое поколение обучаемых компьютеров (экспертных систем, ЭС) будет превосходить людей по качеству принимаемых решений сначала в некото рых, а затем и в большинстве областей человеческой деятельности.

Для подтверждения состоятельности этого прогноза достаточно отметить, что ЭС Watson фирмы IBM в 2013 году на общих основаниях сдала экзамены и получила диплом врача, при обретя юридическое право лечить людей. И в области онкологии уже демонстрирует блестя щие результаты. Коммерчески доступны также индустриальные и банковские приложения ЭС. На этом фоне показательно заявление генерального директора IBM Вирджинии Рометти [1]: «...в течение следующих 5 лет все фирмы разделятся на победителей и побежденных в за висимости от качества принимаемых корпоративных решений (с применением ЭС!!!)».

В ближайшем будущем качество (решений) уже не может и не будет опираться на опыт и интуицию: конкурентные преимущества будут достигаться с учетом прогнозирования по следствий принимаемых решений (predictive analytics). А технологическая «гонка вооруже ний» в области ИТ будет идти и уже идет за достижение превосходства по основным характе ристикам применяемых ЭС: информированности и интеллектуальности [2].

Согласно прогнозам McKinsey [3], эта новая область ИТ в недалеком будущем станет и новой областью экономики, превосходящей по своей значимости нефтегазовый сектор, с тем отличием, что «сырьем» для переработки здесь будут не нефть и газ, а огромные и бы строрастущие мировые данные с необходимостью создания «заводов» по переработке «сы рья» — ЭС.

Налицо поэтому две угрозы для национальной экономики:

А. Потеря конкурентоспособности предприятий РФ, для которых будут недоступны со временные и будущие технологии принятия конкурентоспособных решений.

Проблема в том, что современные ЭС уже относятся к классу обучаемых систем, в кото рых персонал постоянно совершенствует приданные ему средства автоматизации в процес се эксплуатации (дообучает ЭС). И конкурентные свойства ЭС определяются совокупностью качеств персонала и ЭС. И если можно себе представить, что на рынке будут доступны из 14 Big Data начально обученные ЭС, то остается открытым вопрос доступности персонала, способного дообучать ЭС в ходе эксплуатации на конкурентном уровне.

Представить себе наем зарубежных сотрудников в массовом порядке (десятки тысяч предприятий) уже невозможно, необходимо организовать соответствующее обучение в РФ.

Вместе с тем, по мнению Рометти [1], в США этому пока не учат, но собираются учить (predictive analytics).

Проблема обучения персонала для создания, эксплуатации и развития ЭС является меж дународной.

В. Снижение конкурентоспособности экономики РФ В ЦЕЛОМ в случае выпадения из миро вого разделения труда в новом секторе инновационной экономики — «машиностроении» ЭС («заводов» по переработке «сырья»  — Больших Данных). Несмотря на новизну и необыч ность сектора создания нового класса нематериальных активов (обучаемых ЭС), базовые за коны экономики никто не отменял.

Объемы производства и в этом секторе, как и ранее, будут определяться как числом ра ботающих, так и их производительностью труда. Производительность труда при создании ЭС (как и ранее в программировании) будет определяться наличием средств автоматизации разработки заключительного продукта и готовых крупных строительных блоков программ (в программировании — языки высоко уровня, СУБД, мониторы транзакций и т. д.).

Если же рассматривать создание ЭС на основе коммерчески доступной платформы, то, например, основные компоненты платформы IBM BIG DATA (более 600) позиционируются фирмой-изготовителем именно как акселераторы (ускорители) разработки ЭС. То есть как средства радикального повышения производительности труда в новом «машинострое нии» — производстве ЭС.

Итак, для удовлетворения потребностей инновационного развития экономики РФ, по экспертным оценкам, в ближайшие годы потребуются десятки тысяч специалистов в области создания и развития ЭС — нового поколения обучаемых компьютеров.

Необходимым условием (но не достаточным!) самой возможности организации обучения такого рода специалистов является наличие доступа при обучении к современным сред ствам автоматизации проектирования ЭС: платформам BIG DATA.

С целью удовлетворения потребности доступа к такого рода технологиям фирмой «ЕС Лизинг» (ЕСЛ) совместно с IBM в конце 2012 года создан первый в РФ Центр компетенции по технологиям платформы IBM BIG DATA — базовым технологиям создания ЭС Watson. В этом центре на основе ВЦ ЕСЛ (вся линейка оборудования IBM, включая IBM z и Netezza) развер нуты в полном объеме продукты платформы IBM BIG DATA, а также организованы основные университетские лабораторные работы IBM по начальному обучению этим продуктам.

Само обучение специалистов в настоящее время осуществляется на основе базовой ка федры ЕСЛ «Информационно-аналитические системы», созданной в МИЭМ НИУ ВШЭ в году, с предоставлением облачного доступа преподавателям и студентам к возможностям центра.

Особенностью обучения на базовой кафедре ЕСЛ является непременное участие студен тов под руководством преподавателей в практическом проектировании систем, реализуе мых для заказчиков ЕСЛ.

Центр компетенции BID DATA IBM-ЕСЛ является материально-технической основой для проведения НИР и ОКР в области создания современных информационно-аналитических Москва, 22 октября 2013, www.ospcon.ru систем, в том числе ЭС. Для заинтересованных организаций Центром компетенции IBM-ЕСЛ оказывается целый спектр услуг по оказанию помощи в освоении технологий BIG DATA и организации обучения персонала.

Выводы:

1. В конкурентной борьбе как за качество принимаемых корпоративных решений, так и за долю рынка в новой экономике ключевую роль играет производительность труда про ектировщиков ЭС. Целевая производительность труда может быть достигнута только с при менением платформ BIG DATA — крупноблочных конструкторов для строительства ЭС.

2. Применение технологий BIG DATA приводит к появлению обучаемых ЭС, отличающихся от традиционных ЭС схемой принятия решений и наличием возможности обучения в ходе эксплуатации, с соответствующим изменением требований к ролям и квалификации персо нала.

3. Подготовка специалистов для крупноблочного проектирования и последующего обу чения ЭС требует доступа обучаемых к тренажерам ЭС, обеспечивающим формирование не обходимых знаний и навыков.

Литература 1. http://www.cfr.org/technology-and-science/conversation-ginni-rometty/p 2. http://4cio.activetextbook.com/active_textbooks/34#page 3. McKinsey Global Institute. Disruptive technologies: Advances that will transform life, business, and the global economy, May 2013.

Системы высокой доступности и Большие Данные Будзко В. И. (VBudzko@ipiran.ru) — ИПИ РАН (Москва) По мере увеличения степени встраиваемости средств электронной информационной тех нологии (ЭИТ) в различные направления современного общества возрастают требования к та ким их характеристикам, как живучесть, адаптируемость, масштабируемость, поэтому сформи ровалось и постоянно развивается научно-техническое направление, связанное с созданием систем высокой доступности (СВД). Понятие «высокая доступность» введено в рекомендациях международного комитета ТРС (Transaction Processing Performance Council) [1] и предполагает, что доступ к системе и получение соответствующего обслуживания выполняется, когда это не обходимо и с приемлемой производительностью. При этом обслуживание системой не преры вается при любых условиях (например, при ее масштабировании — добавлении дополнитель ных мощностей без остановки работы, расширении — вводе в промышленную эксплуатацию новых прикладных систем на той же системотехнической базе, изменении версии системного программного обеспечения, отказе оборудования, катастрофе и пр.).

От таких систем требуется повышенная готовность осуществлять информационное об служивание пользователей или управляемых объектов. А это означает, что предъявляются и повышенные требования ко всем обеспечивающим средствам [2, 3].

Большие Данные (Big Data, BD) — общий термин, используемый для описания огромного количества неструктурированных и частично структурированных данных, которые создает 16 Big Data компания. Это данные, хранение которых в реляционной базе данных для анализа заняло бы слишком много времени и стоило бы слишком много денег [4]. Хотя Большие Данные не от носятся к какой-либо конкретной величине, когда о них говорят, часто используют термины «петабайты» и «экзабайты данных».

В настоящее время мы являемся свидетелями эволюции коммерческих предложений в области инструментария создания аналитических систем предприятий: от частных решений, например по визуализации аналитических результатов, к представлению интегрированных платформ с полной функциональностью для проведения аналитики по любым типам данных в ранее недоступных объемах. Например, платформы IBM Big Data или HP IDOL10. Это эволю ция от ЭИТ-станков к ЭИТ-заводам.

Говоря об СВД, которая обладает свойством BD, мы не должны забывать о втором при сущем ей обязательном свойстве — доступности всех необходимых данных для своевре менной выработки адекватного информационного продукта, на основе которого может быть принято оптимальное решение [5]. От полноты и точности доступных данных, под лежащих обработке, зависит качество получаемого «информационного продукта» (ИП) и, соответственно, качество информационной поддержки процесса принятия решений пользователем. Высокая доступность применительно к автоматизированным информаци онным системам (АИС) предполагает не только своевременность выработки информации, но и высокое качество последней. Таким образом, АИС ВД должна включать средства сво евременного сбора точных и полных данных и средства их своевременной обработки для получения информации, обеспечивающей своевременное принятие эффективного реше ния. Поэтому уместно называть такие системы не просто СВД, а системами высокой доступ ности данных (СВДД).

Технологии выбора наилучших из возможных решений отработаны и не менялись на про тяжении веков. При их реализации возникает известная проблема распределения усилий между четырьмя «D»: выявление (discovery), отбор (discrimination), переработка (distillation), доведение информации в нужном представлении (delivery/dissemination) [6–8].

В чем состоит своевременность получения ИП? Введем простое условие. Если время Т, прошедшее с момента возникновения релевантных исходных данных (ИД) до момента завер шения выполнения действия на основании выработанного ИП, достаточно для своевремен ного и, соответственно, эффективного воздействия на происходящие процессы, то Т удов летворяет требованиям непрерывности бизнес-процесса конкретной предметной области (организации, предприятия и пр.). СВДД должна своевременно выявлять ИД, доставлять ИД, обрабатывать ИД, производить ИП и доводить ИП до руководителя. Обозначим как ТРЕГ мак симально допустимое значение времени Т, превышение которого нарушит непрерывность бизнес-процесса. Определим составляющие Т.

Т = ТВ + ТП + ТО + ТИП + ТР + ТД, где ТВ — время, прошедшее с момента появления ИД до момента их отбора поисковыми сред ствами;

ТП — время, затрачиваемое на передачу ИД обработчику;

ТО — время, затрачиваемое обработчиком на подготовку данных для аналитика;

ТИП — время, затрачиваемое аналитиком на подготовку ИП;

ТР — время, затрачиваемое руководителем на принятие решения;

ТД — время, затрачиваемое на выполнение действия по решению руководителя.

Москва, 22 октября 2013, www.ospcon.ru Тогда в системе высокой доступности данных должно обеспечиваться условие: Т ТРЕГ.

Высокая доступность требуемых для своевременного принятия решения сведений из ЭИ определяется не только временем доступа, но и своевременным выявлением их наличия.

Системы, которые накапливают и обрабатывают полностью структурированные данные, имеют результат поиска в конкретной БД по конкретному поисковому предписанию, пол ностью соответствующий состоянию БД на данный момент, обеспечивается стопроцентная полнота и стопроцентная точность. Аналитический ИП — всегда результат обработки струк турированных данных. Поэтому если для решения аналитической задачи требуется привлечь неструктурированные или слабо структурированные данные, то необходимо иметь средство их преобразования в структуру.

Система должна быть ориентирована на обеспечение пользователей с учетом специфики их деятельности и соблюдение необходимых мер безопасности. При этом отдельные пользо ватели могут выступать как в качестве потребителей специально подобранной для них инфор мации, так и в качестве ее поставщиков по заданиям или инициативно. Проблемы, которые при этом приходится решать, имеют универсальный характер. Прежде всего они связаны с созда нием рациональной «человекомашинной» системы использования электронных источников, включающей информационные, технологические и организационные составляющие.

Потенциальные опасности, которые могут сбить с толку при проявлении инициативы перехода на аналитику BD;

 — это отсутствие внутри организации аналитиков с необходи мыми навыками и высокая стоимость найма опытных профессиональных аналитиков, а также проблемы интеграции новых технологий и действующих хранилищ данных, хотя продавцы начинают предлагать специальное программное обеспечение для такого рода соединений.

Маркетологи вендоров аппаратного и программного обеспечения начали перемарки ровывать каждый продукт и решение на BD;

реляционные и другие традиционные подходы обработки бросались в «общий котел». Подход можно было бы считать лицемерным, но в действительности это подчеркивает мысль, высказанную ранее: BD — это вся цифровая ин формация, которая существует и когда-либо собиралась и производилась, включая тради ционные транзакционные, основные и информационные данные, которые при помощи ЭИТ собраны, произведены и управлялись с незапамятных времен.

Традиционные данные составляют меньше 10% цифровой информации, которой управ ляет бизнес. Доля традиционной реляционной технологии уменьшается в ИТ-бюджете и со ставляет 15–25%, но в большинстве случаев все еще превышает расходы на программное обеспечение NoSQL. При этом реляционная технология существенно развилась в направле нии работы с большими объемами данных и достижения более высоких скоростей обработ ки. Massively Parallel Processing (MPP), колоночные и расположенные в памяти базы данных позволили реляционной технологии поддержать существенно большую нагрузку и более высокие скорости. [9, 10] Литература 1. A Recommendation for High-Availability Options in TPC Bench - break marks by Dean Brock.

Data General 2001 NPC. http://www.tpc.org/information/other/articles/ha.asp 2. Будзко В.И., Соколов И.А., Синицин И.Н. Построение информационно-телекоммуникаци онных систем высокой доступности // Системы высокой доступности. 2005. № 1, т. 1.

С. 6-14.

18 Big Data 3. Будзко В.И., Шмид А.В. О создании отказоустойчивых и катастрофоустойчивых цен тров коллективной обработки банковской информации // 6-я Всероссийская конференция «Информационная безопасность России в условиях глобального информационного обще ства»: сборник материалов. Москва, 2004. С. 145- 4. Preimesberger, Chris. Hadoop, Yahoo, ‘Big Data’ Brighten BI Future (англ.). EWeek (15 August 2011).

5. Будзко В.И., Леонов Д.В., Николаев В.С., Оныкий Б.Н., Соколина К.А. Мультиагентные информационно-аналитические системы (МИАС) по научно-техническим направлениям // Системы высокой доступности. 2011. № 4, т. 7. С. 5- 6. Steel Robert D. ON INTELLIGENCE: Spies and Secrecy in an Open World. AFCIA International Press (AIP), USA, 2000.

7. Budzko V. The Russian Viewpoint on Electronic Open Source Technologies // Proceedings of conference «Open Source Solutions 21», Washington, D.C., USA, 15-17 May 2000, pp. 61-69.

8. Budzko V. Electronic open sources. Technology of application // Proceedings of conference «Open Source Solutions 21», Washington, D.C., USA, 15-17 May 2000, pp. 70-76.

9. Zikopoulos P. C., Eaton C., deRoos D, Deutsch T., Lapis G. Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data. The McGraw-Hill Companies, 2012, 141pp.

10. Zikopoulos P. C., deRoos D., Parasuraman K., Deutsch T., Corrigan D., Giles J. Harness the Power of Big Data The IBM Big Data Platform. The McGraw-Hill Companies, 2013, 242 pp.

YT — эволюция системы распределенных вычислений Бабенко М. А., Пузыревский И. В. (sandello@yandex-team.ru) — «Яндекс» (Москва) В течение последних трех лет мы разработали, реализовали и внедрили YT — новую плат форму для хранения и обработки больших объемов статистических и аналитических данных.

Платформа задумывалась как замена существующей в «Яндексе» с 2008 года MapReduce подобной системе обработки данных с улучшенными показателями эффективности, доступ ности и масштабируемости. В данном докладе мы хотели бы дать краткий обзор развитию технологии распределенных вычислений, поделиться опытом, полученным в процессе раз работки и эксплуатации новой системы.

Введение В современных компаниях, занимающихся информационными технологиями, все чаще возникают задачи, связанные с обработкой больших массивов данных. К примеру, в компа нии «Яндекс» каждый день обрабатываются петабайты информации для решения широкого спектра вопросов: анализ статистики работы сервисов, поведения пользователей, обра ботка текстов интернет-документов, картинок, временных рядов. Многие из вышеперечис ленных задач допускают эффективное и масштабируемое решение в модели вычислений MapReduce.

Модель вычислений MapReduce была представлена в 2004 году [1];

первая внутренняя система в «Яндексе», поддерживающая вычисления в MR-модели, появилась в 2006 году и Москва, 22 октября 2013, www.ospcon.ru развивается и эксплуатируется до сих пор (далее по тексту  — YAMR). Однако к 2011 году стали очевидными некоторые проблемы:

единая точка отказа в виде мастер-сервера;

совмещение точки координации (мастер-сервера) и точки планирования (планировщика) ограничивает возможность масштабирования;

слабая поддержка метаданных и возможностей интроспекции состояния системы;

плохая модульность системы, усложняющая ее развитие и поддержку.

Платформа YT появилась как замена существующей системе с улучшенными показателя ми эффективности, доступности и масштабируемости. Далее мы рассмотрим ключевые отли чия от предшественника, причины изменений, а также опишем планы развития платформы в ближайшем будущем.

Реплицированное состояние Как уже было сказано, в архитектуре системы YAMR присутствует единая точка отказа — мастер-сервер, хранящий метаданные о расположении блоков информации и обеспечиваю щий фоновые процессы их репликации и балансировки. Сбой в работе данной компоненты ведет к полной недоступности кластера и его длительному перезапуску.

В системе YT сервис с метаданными был реализован как реплицированный конечный ав томат (Replicated Finite-State Machine). Используемая техника репликации подтверждает вне сение изменений в (мета-) состояние только при наличии активного кворума на изменение, что позволяет обеспечивать работоспособность сервиса в случае недоступности меньшей части машин-копий.

Стоит отметить, что для реализации надежного транспорта событий на кворум машин ис пользуется алгоритм, основанный на ведении журнала изменений [2, 3], а не на разрешении задачи консенсуса [4]. Это позволило сделать поведение системы простым и доступным для понимания.

С технической стороны реализованная нами модель репликации позволяет обрабаты вать порядка 100 тыс. событий в секунду. Также наличие отказоустойчивости к единичным сбоям позволяет производить «мягкие» обновления системы без глобального перезапуска путем поочередного обновления машин, что оказалось полезным на практике.

Планировщик В системе YAMR планировщик был совмещен с мастер-сервером, что ограничивало мас штабируемость. В системе YT эти два сервиса разделены. Отказоустойчивость планировщика достигается за счет периодического создания слепков состояния и поддержания теневых копий сервиса, которые перехватывают планирование в случае отказа основной копии сер виса.

Практическое использование кластера также показывает, что модель планирования с одним ресурсом не позволяет максимально использовать ресурсы кластера, так как запуска емые пользователями операции весьма существенно варьируются в потреблении памяти и процессорного времени. Для более эффективной утилизации ресурсов была внедрена муль тикритериальная система планирования. В настоящий момент при планировании исполне ния учитываются потребности в памяти, вычислительных ядрах и сетевой полосе.

20 Big Data Хранение данных В качестве модели данных и в системе YAMR, и в системе YT используются несхематизи рованные таблицы — наборы записей, состоящих из пар «ключ-значение». Данная модель зарекомендовала себя как успешная, потому что дает возможность пользователю системы не заботиться о вопросах хранения данных и целиком сфокусироваться на решаемой задаче.

В системах распределенного хранения данных важным аспектом является отказоустой чивость. Стандартным средством ее обеспечения является репликация. К примеру, сохране ние данных в трех копиях позволяет системе работать при отказе двух машин. Именно такой подход и использовался в системе YAMR для обеспечения гарантий сохранности данных.

Однако с ростом объемов данных возникла потребность в более эффективной схеме хранения информации. В системе YT реализована поддержка кодов Рида — Соломона, по зволяющая обеспечивать гарантии по устойчивости к тому же количеству отказов, что и при репликации данных, но с меньшими накладными расходами. К примеру, трехкратная ре пликация требует 300% объема для хранения данных, в то время как кодирование по схеме RS (6,3) требует 150% объема при тех же гарантиях.

С кодами Рида — Соломона тем не менее связана другая проблема хранения: для вос становления данных после сбоя нужно прочитывать большой объем данных. К примеру, для схемы RS (12,3) нужно прочитать 12-кратный объем данных для восстановления после сбоя.

Для решения данной проблемы были внедрены так называемые локально-реконструируе мые коды [5], которые позволяют вдвое снизить требования по просматриваемому объему данных.

* ** В настоящий момент система YT успешно и эффективно эксплуатируется в компании «Ян декс» в разных отделах. Будущие направления развития системы включают масштабирование на новые объемы данных и размеров кластеров, а также привнесение интерактивной функ циональности, позволяющей строить процессы обработки данных с субсекундной латент ностью.

Литература:

1. Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. OSDI’04:

Sixth Symposium on Operating System Design and Implementation, San Francisco, 2004.

2. Brian M. Oki, Barbara H. Liskov. Viewstamped replication: A new primary copy method to support highly-available distributed systems. PODC’88: Proceedings of the seventh annual ACM Symposium on Principles of distributed computing, New York, 1988.

3. Diego Ongaro, John Ousterhout. In Search of an Understandable Consensus Algorithm.

In draft, Stanford University, 2013.

4. Tushar Chandra, Robert Griesemer, Joshua Redstone. Paxos made live: an engineering perspective.

PODC’07: Proceedings of the twenty-sixth annual ACM symposium on Principles of distributed computing, New York, 2007.

5. Cheng Huang, Huseyin Simitci, Yikang Xu, Aaron Ogus, Brad Calder, Parikshit Gopalan, Jin Li, and Sergey Yekhanin. Erasure coding in Windows Azure storage. USENIX, ATC, 2012.

Москва, 22 октября 2013, www.ospcon.ru Секция. Большие Данные в науке и индустрии Территория Больших Данных: Terra Incognita?

Агамирзян И. Р. — РВК (Москва) Я собираюсь говорить совершенно не о технических деталях Больших Данных, а скорее о методических вещах и позиционировании этого рынка и его перспективности с точки зре ния инвестиционной привлекательности и того места, которое он несомненно должен за нять в экономике.

Прежде всего хотелось бы подчеркнуть, что человечество обрабатывает большие дан ные уже давно. Мне довелось несколько лет проработать в корпорации EMC, занимаясь про граммным обеспечением систем хранения данных. Очень похожие задачи — обеспечение отказоустойчивости, эффективности хранения данных, систем резервирования — мы уже тогда успешно решали, хотя термин Big Data еще не был по-настоящему известен.

В течение последних двух десятилетий происходит экспоненциальный рост по очень многим характеристикам индустрии, связанной с обработкой больших объемов данных. По нятно, что он не может продолжаться бесконечно, поэтому уже довольно многие из тех, кто занимается научно-техническим и экономическим прогнозированием, ведут разговор о син гулярности. Модель развития должна измениться — по разным прогнозам, до этого осталось от 10 до 20 лет.

Традиционные правила ведения бизнеса в текущей ситуации просто перестают работать.

Поэтому сегодня нам не просто нужно принимать правильные решения, а необходимо при нимать их быстро. Неточные прогнозы приводят к крушениям бизнеса. Если обратиться к истории компьютерного бизнеса, то можно наблюдать непрерывную череду самоубийств лидирующих компаний, связанную с принятием неправильных решений и выбором невер ных стратегий. Поэтому в сегодняшнем мире, в пока ускоряющемся развитии экономики и технологий необходимо вырабатывать реальный инструментарий для своевременного при нятия правильных решений.

Большие Данные предлагают для этого новый и перспективный подход, связанный с вы явлением закономерностей в структурированных и неструктурированных данных. Тем не менее очень важно понимать, что так же, как и в других популярных направлениях, в области Больших Данных всегда присутствует смесь маркетингового, технологического и экономи ческого подходов.

То же самое относится к облачным вычислениям — маркетинговому обозначению для целой совокупности технологий, которые позволяют нам построить новую экономическую модель. Набор технологий для облачных вычислений известен по крайней мере последние 15 лет. Конкретная экономическая модель перевода капитальных затрат в оперативные до ходы и расходы разработана, привлекательна и просчитываема, и сегодня мы наблюдаем бум интереса к облачным вычислениям.

В значительной мере это относится и к Большим Данным. Большие Данные были всегда.

Возможно, сегодня их объемы действительно становятся огромными, но, имея опыт работы в корпорации EMC, которая на протяжении 25 лет занимается хранением и обработкой боль ших объемов данных в чрезвычайно ответственных отраслях (90% финансовых транзакций 22 Big Data во всем мире производится на оборудовании EMC), я прекрасно понимаю, что почти все наработки в этой области существуют достаточно давно. За исключением, возможно, опре деленных технологий — например, Map Reduce, разработанной Google около 10 лет назад.

Тем не менее, как о явлении, о Больших Данных стали говорить около пяти лет назад.

Сегодня вокруг этого направления развился большой маркетинг и реально стал выделяться соответствующий рынок, который растет очень высокими темпами. Практически все пред ставители агентств и корпораций предсказывают не только значительные темпы роста, но и называют абсолютные объемы этого рынка, уже сегодня достигшие больших значений и миллиардных оборотов.

Последние несколько лет шли массовые эксперименты, результаты которых крупными компаниями типа Google и «Яндекс» реализовывались в практических продуктах. Но сегодня происходит процесс выхода технологий, связанных с Большими Данными, на уровень кор поративного использования. Почти половина руководителей во всем мире, ставших участ никами опроса Gartner, либо уже сделали вложения, либо собираются инвестировать в ре шения Больших Данных.

Сегодняшний мир — это мир, генерирующий данные. Трудно назвать область деятель ности, которая не была бы связана с огромными потоками данных. Самолет Dreamliner за время трансатлантического перелета собирает несколько десятков гигабайт телеметриче ских данных. Правда, пока не совсем понятно, что со всем этим делать. В истории технологий есть совершенно потрясающие факты — за 60 с лишним лет развития космонавтики из всего объема телеметрии, которая была собрана и хранится до сих пор на самых разных носите лях, реально было использовано не более полутора процентов. Особенностью технологий Больших Данных как раз и является то, что они, пожалуй, впервые позволяют обрабатывать данные из большого числа самых разнообразных источников, сопоставляя ранее несопоста вимые наблюдения, структурированную и неструктурированную информацию, и извлекать из них новые знания.

Рынок формируется, и ключевыми игроками на нем становятся не только крупные транс национальные корпорации, но и государства, которые стремятся все зарегулировать (в ряде стран уже принимаются национальные программы, связанные не только с образованием и подготовкой специалистов, но и, например, с медициной), и интеграторы, стремящиеся за работать на предоставлении и продвижении соответствующих решений. А также наиболее интересная для меня отрасль — стартапы и венчурная инфраструктура.

Рост венчурной индустрии Больших Данных вполне заметен. В 2012 году значительное число венчурных компаний приобрели новых инвесторов или привлекли инвестиции в ходе размещения акций. Капитализация лидеров в этой отрасли уже измеряется миллиардами долларов.

Сегодня, как нам представляется, для компаний есть определенное «окно возможно стей» для вступления на новый рынок, когда ценой относительно небольших, но своевре менных усилий можно вырасти в глобального лидера. Такое «окно возможностей» обычно очень короткое и быстро закрывается. После этого возникает конкурентная среда с боль шим количеством слияний и поглощений, в ходе которых более удачливые участники рынка скупают менее удачливых. Это происходило и происходит во всех индустриях: автомобиль ной, авиационной, компьютерной...

«Окно возможностей» в Интернете закрылось в конце 90-х годов. В сфере приложений для социальных сетей это, скорее всего, произошло лет 5–6 назад. «Окно возможностей» в Москва, 22 октября 2013, www.ospcon.ru области облачных вычислений и технологий Больших Данных пока еще открыто. Но его за крытие — вопрос ближайших нескольких лет, если не месяцев.

Для России, ее инновационной экономики направление Больших Данных имеет высокий потенциал в силу ряда причин. Одной из них является то, что у нас в стране все еще сохра няются сильные научные и математические школы. Технологии Больших Данных связаны со сложной аналитикой и, по крайней мере потенциально, могут предоставить обширное поле деятельности для российских ученых и разработчиков.

Кроме того, сегодня вокруг тематики Больших Данных складывается собственная экоси стема, которая наследует многие элементы инфраструктуры информационных технологий и в первую очередь ориентацию на открытое программное обеспечение, что делает доступ ным самый современный инструментарий и значительно понижает порог вступления на тер риторию Больших Данных.

Современные тенденции Больших Данных. Взгляд технолога Позин Б. А. (bpozin@ec-leasing.ru) — «ЕС-лизинг» (Москва) Технология Больших Данных (БД) — это прежде всего возможность значительно повы сить способность компаний и органов управления страны в области анализа данных и под готовки принятия решений в самых разных областях на основе оперативной и достоверной информации об управляемом объекте. Для проведения анализа разных видов информации необходимы математические, экономические и другие методы, и их развитие весьма важно.

Роль технологии БД в национальной экономике будет повышаться по мере того и в той степени, как и в которой технология БД будет использоваться для решения практических задач компаний.

Объемы производства и в этом секторе, как и ранее, будут определяться как числом работаю щих, так и производительностью их труда. Под работающими здесь и далее имеются в виду не спе циалисты в области ИТ или математики, а специалисты-предметники: врачи, управленцы среднего и высокого уровня, работающие на заводах, фабриках, торговых предприятиях оптовой и розничной торговли, и широкий спектр специалистов самых разных специальностей. Они должны быть ос нащены такими инструментами анализа, с которыми смогут общаться на языке своей предметной области и получать ответы, интерпретируемые в понятиях их предметной области.

Сегодня таких специалистов не готовят нигде в мире. Вместе с тем, чтобы использовать преимущества технологии БД, важно как можно быстрее начать их использовать. И это воз можно уже сегодня. Надо начинать работать на готовых платформах БД, чтобы обучить спе циалистов по информационно-аналитическим системам, создать работающие в компаниях технологии, а затем совершенствовать как технологии, так и используемые в них методы.

Применение технологии БД при решении задач управления компаниями и корпора циями В настоящее время компаниями на основе наработанных структурированных данных о ходе оперативной деятельности проводится анализ степени соответствия состояния компа нии ее среднесрочной стратегии.

24 Big Data Использование только внутренних данных не позволяет выявить новые внешние фак торы, которые могут повлиять не только на тактику, но и на стратегию компании на средне срочном интервале. Для подготовки принятия подобных решений необходимо привлекать данные, внешние для компании, то есть не вырабатываемые ею: сведения о стратегии и так тике государства, состоянии и тенденциях рынка, данные о конкурентах, перспективных и реальных клиентах, их планах и действиях. Эти данные далеко не всегда являются структури рованными, их необходимо добывать, исследовать и преобразовывать в информацию новы ми методами, которые при анализе структурированных данных ранее не применялись. Эти методы относятся в настоящее время к технологии БД.

Кроме того, в связи с появлением новых высокоэффективных методов обработки данных воз никают новые возможности в обработке данных «на проходе», с выделением наиболее интерес ных из них по критериям, вырабатываемым конечными пользователями. Это данные, которые мо гут использоваться как в оперативном, так и в тактическом управлении компанией — например, обработка сотен тысяч и миллионов единиц данных о функционирующих технических средствах компании (в том числе и географически распределенных) для снижения издержек на их эксплуа тацию и предотвращения нештатных ситуаций, анализ свойств потоков покупателей, в частности для определения устойчивого спроса на товары в крупных супермаркетах, и т. п.

Возможность быстро реагировать на внутренние события компании и на внешние воз действия, быстрое моделирование и прогнозирование развития ситуации для поддержки принятия управленческих решений позволят компаниям превратить использование обеспе чивающей эти возможности технологии БД в конкурентное преимущество.

Две тенденции в развитии технологии БД Научно-технические и популярные издания активно рекламируют очевидные преиму щества технологии БД. Однако свидетельств об успешно решенных с использованием этой технологии бизнес-задачах пока не так много.

Опыт разработки и внедрения информационно-аналитических систем (ИАС), анализиру ющих структурированные данные, показывает, что конечный пользователь начинает осваи вать технологию использования средств автоматизации анализа и постановки соответствую щих задач по мере создания для него «полной» ИАС, подключенной к реальным источникам данных. Именно она является «толчком» к постановке новых прикладных аналитических за дач.

С этой точки зрения в области БД в настоящее время существуют две тенденции:

освоение и формирование новых методик решения практически значимых задач на осно ве доступных комплексов инструментальных средств, или платформ;

развитие методов и технологий БД и их имплементация в состав доступных платформ.

Обе тенденции требуют интенсивной подготовки кадров, владеющих соответствующими знаниями, методиками и инструментами.

Креативные команды для решения задач в междисциплинарной области и требова ния к платформам БД Задачами исследования данных для поддержки принятия решений обычно занимается креативная команда, составленная из аналитиков, прикладников и специалистов по работе с данными и их обработке конкретными, в том числе и математическими, методами. Для обе Москва, 22 октября 2013, www.ospcon.ru спечения креативной команды соответствующими методами, методиками и инструментами существует комплекс требований к платформе Больших Данных:

платформа должна быть ориентирована на использование командой различных специали стов-предметников и ИТ-специалистов при поиске, создании и использовании механизмов решения новых задач в комплексной, междисциплинарной области;

промежуточные и финальные результаты, получаемые разными членами команды, должны интегрироваться на средствах визуализации для принятия решений по результатам работы команды в целом;

инструменты, входящие в состав платформы, должны содержать средства постановки за дачи на языке предметников, а не ИТ-специалистов;

обеспечивать решение основных задач в предметной области c использованием структурированных, неструктурированных и по токовых данных;

быть проинтегрированы по управлению и по данным (метаданным), иметь открытые механизмы (правила и средства) подключения новых инструментов и встраивания новых методов/алгоритмов.

В настоящее время этому комплексу требований в наибольшей степени удовлетворяет платформа IBM Big Data, состав и структура которой приведены в докладе. Эта платформа со держит более 600 реализованных методов и алгоритмов обработки и анализа данных разных типов.

Обеспечение жизненного цикла ИАС, построенных на базе платформы БД Опыт построения ИАС на базе элементов платформы IBM Big Data показывает, что важ нейшим вопросом при ее использовании является создание не только собственно «полной»

ИАС, но и определение того, как должны работать использующие ее люди, как она должна сопровождаться и развиваться в процессе ее жизненного цикла — 10–15 лет и, возможно, более. Рассмотрены основные цели, задачи и опыт решения задач обеспечения жизненного цикла ИАС.

Большие данные и экономические модели организации вычислений в распределенных средах Топорков В. В. (toporkovvv@mpei.ru) — НИУ МЭИ (Москва) Работа выполнена при частичном содействии Совета по грантам Президента Рос сийской Федерации для поддержки ведущих научных школ (шифр НШ-316.2012.9), Российского фонда фундаментальных исследований (грант № 12-07-00042), Министерства образования и науки Российской Федерации в рамках федеральной целевой программы «Научные и научно-пе дагогические кадры инновационной России» на 2009–2013 годы (государственный контракт № 16.740.11.0516).

Введение Большие задачи, например обработка данных физических экспериментов на LHC (ЦЕРН), зачастую требуют привлечения распределенных вычислительных ресурсов, часть из кото рых используется совместно с их владельцами [1–4]. Среди различных подходов к планиро ванию вычислений в распределенных средах можно выявить следующие тенденции. Одна из них основывается на использовании доступных ресурсов и планировании вычислений на 26 Big Data уровне приложений. Зачастую при этом не предполагается наличия какого-либо регламента в предоставлении ресурсов [5]. Роль посредников между пользователями и вычислитель ными узлами выполняют агенты приложений [6–11] — брокеры ресурсов. Другая тенденция связана с образованием виртуальных организаций (ВО) пользователей и предполагает пла нирование на уровне потоков заданий [12–15]. Наличие определенных правил предостав ления и потребления ресурсов в ВО, основанных, в частности, на экономических моделях [1–4, 15–18], позволяет повысить эффективность планирования и распределения ресурсов на уровне потоков заданий.

Идея «конвергенции» вышеупомянутых подходов была декларирована довольно давно [14, 19–21]. Однако попытки ее реализации обладают рядом серьезных ограничений. В одних из известных моделей отыскивается лишь подходящий набор ресурсов [22–24] и не поддер живаются оптимизационные механизмы планирования заданий. В других моделях [14, 16, 17] не представлены аспекты, связанные с динамикой изменения загрузки узлов, конкуренцией независимых пользователей, а также глобальных и локальных потоков заданий.

Предлагается модель справедливого разделения ресурсов для управления выполнени ем независимых заданий на основе экономических принципов [25–27].

Справедливое разделение ресурсов В [26, 27] предложена циклическая схема планирования (ЦСП) на основе динамично обновляемых расписаний выполнения заданий в локальных процессорных узлах (рис. 1).

Среди основных ограничений ЦСП можно выделить следующие. Отсутствует возможность влиять на ход выполнения отдельного пользовательского задания: поиск отдельных альтер натив осуществляется по принципу «первая подходящая», а выбор их оптимальной комби нации отражает интересы всей ВО. Таким образом, не учитываются предпочтения отдельных пользователей, что не позволяет говорить о справедливом разделении ресурсов. Планиро вание выполнения пакета заданий основывается на пользовательской, зачастую весьма не точной, оценке времени выполнения конкретного приложения. В случае несостоятельности оценки преждевременно высвобожденные ресурсы могут простаивать, тем самым понижая уровень загрузки среды. Для планирования пакета заданий необходимо выделение несколь ких «непересекающихся» (по занятым ресурсам и времени) альтернатив, а для выполнения задания выбирается одна альтернатива. Это может приводить к фрагментации ресурсов, в преодолении которой может помочь использование бэкфиллинга [28].

Рис. 1. Цикличное планирование потока заданий Москва, 22 октября 2013, www.ospcon.ru В модифицированной схеме для учета интересов пользователей в формат ресурсного запроса дополнительно вводится критерий оптимизации (рис. 2). Для выбора альтернатив, оптимальных по заданному критерию, используется алгоритм AEP (Algorithm searching for Extreme Performance), подробно описанный в [29].

Рис. 2. Пользовательские критерии оптимизации выполнения заданий Другое отличие МПСР от ЦСП состоит в алгоритме формирования системы заданий.

МПСР предполагает разделение исходного пакета заданий на множество подпакетов и пла нирование каждого подпакета в отдельности на заданном интервале планирования (рис. 3).

Необходимость процедуры «разрезания» пакета в МПСР особенно ярко проявляется при высоком уровне загрузки ресурсов среды.

МПСР оптимизирует выполнение потока заданий в соответствии с интересами участ ников ВО при условии, что найдены альтернативные наборы слотов для выполнения за даний. Бэкфиллинг реагирует на досрочное освобождение ресурсов и позволяет произ водить перепланирование «на лету», что очень важно в условиях, когда оценка времени выполнения и действительное время выполнения задания могут существенно отличаться.

Предлагается комбинированный подход. В каждом цикле планирования из исходного па кета выделяется подмножество приоритетных заданий — например, самых «дорогих» (по стоимости выполнения) либо самых требовательных к ресурсу (по времени выполнения).

Эти задания группируются в отдельный подпакет и планируются, возможно, и без соблюде ния дисциплины очереди. Далее планирование этого подпакета производится с помощью МПСР на основе актуального расписания загрузки среды на рассматриваемом интервале планирования. Планирование остальных, возможно менее требовательных к ресурсам, заданий осуществляется с помощью бэкфиллинга на основе динамично обновляющейся информации о реальной загрузке узлов.

Эксперименты Табл. 1 демонстрирует результаты планирования отдельных заданий в зависимости от заданного пользователем критерия оптимизации: времени старта и завершения задания, времени и стоимости выполнения задания в относительных единицах симулятора [27]. AEP минимизирует значение заданного критерия.

28 Big Data Рис. 3. Планирование потока заданий с разделением на подпакеты Таблица 1. Учет интересов пользователей ВО Критерий Na Время Время выпол- Время за- Стоимость старта нения вершения Время старта 12,8 171,7 56,1 227,8 1281, Время вы- 10,6 214,5 39,3 253,9 1278, полнения Время за- 12,2 169,6 45 205,5 1283, вершения Стоимость 12,9 262,6 55,5 318 1098, ЦСП 12,1 222 50,3 272,3 1248, Использование критерия оптимизации в МПСР при выполнении отдельных зада ний позволяет более чем на 23% уменьшить время старта завершения заданий, на 21% уменьшить общее время выполнения и на 12% снизить стоимость выполнения по срав нению с ЦСП. Среднее количество Na альтернатив выполнения в табл. 1, найденных для заданий на одном цикле планирования, практически не зависит от выбора критерия оптимизации.

Следующий эксперимент посвящен сравнительному анализу результатов планирова ния при делении исходного пакета заданий в МПСР на различное число подпакетов при разных уровнях загрузки среды. При выборе оптимальной комбинации альтернатив вы полнения решалась задача минимизации среднего процессорного времени выполнения заданий Tпроц. Процессорное время для альтернативы вычисляется как сумма длитель ностей слотов, входящих в сформированное «окно». На рис. 4 представлены значения Tпроц в зависимости от числа k подпакетов, на которое делится исходный пакет заданий, и уровня загрузки среды. Уровень загрузки среды при проведении серии экспериментов определяется относительным числом Y неудач — циклов планирования, в ходе которых не удается найти план выполнения для всех заданий пакета. Эксперименты проводи лись при высоком (Y = 0,3), среднем (Y = 0,03) и низком уровнях загрузки (Y 0,0002) (на рис. 4 — ВЗС, СЗС и НЗС соответственно).

Москва, 22 октября 2013, www.ospcon.ru Рис. 4. Зависимость среднего вре мени Tпроц выполнения заданий пакета от числа k подпакетов Анализ результатов показывает, что увеличение числа формируемых подпакетов об уславливает рост числа альтернатив для выполнения отдельного задания, уменьшение суммарной стоимости прохождения пакета заданий и увеличение относительного числа неудач Y.

Табл. 2 демонстрирует результаты планирования в МПСР с позиций учета интересов вла дельцев ресурсов в зависимости от удельной стоимости c, назначенной на интервале плани рования T = 600. В табл. 2: Lc — суммарное процессорное время загрузки узла на интервале планирования;

U — средняя относительная величина загрузки ресурса на рассматриваемом интервале планирования, P — средняя прибыль, полученная владельцем ресурса, Y — от носительное количество неудачных попыток планирования.

Из табл. 2 видно, что владельцы ресурсов могут управлять собственной прибылью P и уровнем загрузки U вычислительных узлов на интервале планирования T путем выстав ления удельной стоимости c использования узла. Экстремум прибыли достигается при выставлении стоимости, близкой к «среднерыночной», то есть средней стоимости за эк земпляр ресурса аналогичной производительности, выставленной другими владельцами ресурсов.

Таблица. 2. Учет интересов владельцев ресурсов ВО На рис. 5 представлены среднее время выполнения Tпроц и среднее время старта Tстарт заданий пакета в зависимости от соотношения Nцсп/N, в котором происходит разделение N заданий на подпакеты, Nцсп — число заданий в первом подпакете, планирование которых осуществляется на основе ЦСП. Из рис. 5 видно, что, если планирование большей части задания осуществлять с помощью МПСР, достигается лучшее значения целевого критерия ВО — времени выполнения Tпроц, при этом среднее время старта Tстарт заданий отодвигается.

30 Big Data Рис. 5. Среднее время выполнения Tпроц и старта Tстарт заданий в МПБ Для исследования и сравнения эффективности планов, построенных ЦСП, МПСР и бэк филлингом, было проведено имитационное моделирование, в котором реальное время вы полнения заданий существенно отличается от времени предварительного резервирования ресурсов. Фактическое время выполнения заданий задавалось случайной величиной, под чиняющейся равномерному распределению на интервале [0,2* Tрез, Tрез], где Tрез — время ре зервирования ресурсов, отведенное для выполнения задания.

В табл. 3 приведены значения среднего времени выполнения (критерия оптимизации) и среднего времени старта заданий, полученные на этапе предварительного планирования на основе оценки времени выполнения заданий Tрез (колонка «Запланированное») и в ре зультате моделирования выполнения составленного плана с учетом фактического времени выполнения заданий (колонка «Фактическое»). Из табл. 3 видно, что даже при значительной разнице между временем резервирования ресурсов и фактическим временем выполнения заданий преимущество МПСР перед бэкфиллингом по целевому критерию оптимизации в ВО не только сохраняется, но и увеличивается.

Таблица 3. Фактическое и запланированное время выполнения заданий Алгоритм Время выполнения Среднее время старта заданий Запланированное Фактическое Запланированное Фактическое Бэкфиллинг 187,7 115,1 69 37, ЦСП 150,1 90,4 281,2 281, МПСР 138,6 83,5 223,8 223, Преимуще- 26,2% 27,5% -69% -83% ство МПСР перед бэкфил лингом Выводы В докладе рассмотрены стратегии планирования с различными целевыми критериями, основанные на модели справедливого разделения ресурсов, учитывающей предпочтения всех участников ВО. Предложен подход к решению задачи справедливого разделения ре сурсов между участниками ВО. Показана состоятельность планов, составленных МПСР, в условиях, когда фактическое время выполнения заданий может существенно отличаться от пользовательской оценки.

Москва, 22 октября 2013, www.ospcon.ru Литература 1. Garg, S.K., Buyya, R., Siegel, H.J.: Scheduling Parallel Applications on Utility Grids: Time and Cost Trade-off Management. In: 32nd Australasian Computer Science Conference (ACSC 2009), pp. 151-159.

Wellington, New Zealand (2009).

2. Degabriele, J.P., Pym, D.: Economic Aspects of a Utility Computing Service, Trusted Systems Laboratory HP Laboratories Bristol HPL-2007-101. Technical Report, July 3, pp. 1-23 (2007).

3. Garg,S.K., Yeo, C.S., Anandasivam, A., Buyya,R.: Environment-conscious Scheduling of HPC Applications on Distributed Cloud-oriented Data Centers. J. Parallel and Distributed Computing 71, 6, 732-749 (2011).

4. Tesauro, G., Bredin, J.L.: Strategic Sequential Bidding in Auctions Using Dynamic Programming. In: 1st International Joint Conference on Autonomous Agents and Multiagent Systems, part 2, pp. 591-598.

ACM, New York (2002).

5. Воеводин Вл.В., Жолудев Ю.А., Соболев С.И., Стефанов К.С. Эволюция системы метакомпью тинга X-Com // Вестник Нижегородского университета им. Н.И. Лобачевского. 2009. № 4.

С. 157-164.

6. Berman, F.: High-performance Schedulers. In: Foster, I., Kesselman, C. (eds.). The Grid: Blueprint for a New Computing Infrastructure. Morgan Kaufmann, San Francisco, pp. 279-309 (1999).

7. Yang, Y., Raadt, K., Casanova, H.: Multiround Algorithms for Scheduling Divisible Loads. IEEE Trans.

Parallel and Distributed Systems 16, 8, 1092-1102 (2005).

8. Natrajan, A., Humphrey, M.A., Grimshaw, A.S.: Grid Resource Management in Legion. In: Nabrzyski, J., Schopf, J.M., Weglarz J. (eds.). Grid resource management. State of the art and future trends. Kluwer Academic Publishers, Boston, pp. 145-160 (2003).

9. Beiriger, J., Johnson, W., Bivens, H.: Constructing the ASCI Grid. In: 9th IEEE Symposium on High Performance Distributed Computing, pp. 193-200. IEEE Press, New York (2000).

10. Frey, J., Foster, I., Livny, M.: Condor-G: a Computation Management Agent for Multi-institutional Grids. In: 10th International Symposium on High-Performance Distributed Computing, pp. 55-66. IEEE Press, New York (2001).

11. Abramson, D., Giddy J., Kotler L.: High Performance Parametric Modeling with Nimrod/G: Killer Application for the Global Grid? In: International Parallel and Distributed Processing Symposium, pp.

520-528. IEEE Press, New York (2000).

12. Foster, I., Kesselman C., Tuecke S.: The Anatomy of the Grid: Enabling Scalable Virtual Organizations.

Int. J. of High Performance Computing Applications 15, 3, 200-222 (2001).

13. Ranganathan, K., Foster, I.: Decoupling Computation and Data Scheduling in Distributed Data intensive Applications. In: 11th IEEE International Symposium on High Performance Distributed Computing, pp. 376-381. IEEE Press, New York (2002).

14. Kurowski, K., Nabrzyski, J., Oleksiak, A., Weglarz, J.: Multicriteria Aspects of Grid Resource Management. In: Nabrzyski, J., Schopf, J.M., Weglarz J. (eds.). Grid resource management. State of the art and future trends. Kluwer Academic Publishers, Boston, pp. 271-293 (2003).

15. Garg S.K., Konugurthi P., Buyya R.: A Linear Programming-driven Genetic Algorithm for Meta scheduling on Utility Grids. J. Par., Emergent and Distr. Systems 26, 493-517 (2011).

16. Buyya, R., Abramson, D., Giddy, J.: Economic Models for Resource Management and Scheduling in Grid Computing. J. Concurrency and Computation 14, 5, 1507-1542 (2002).

32 Big Data 17. Ernemann, C., Hamscher, V., Yahyapour, R.: Economic Scheduling in Grid Computing. In: Feitelson, D.G., Rudolph, L., Schwiegelshohn, U. (eds.) JSSPP 2002. LNCS, vol. 2537, pp. 128-152. Springer, Heidelberg (2002).

18. Lee, Y.C., Wang, C., Zomaya, A.Y., Zhou, B.B.: Profit-driven Scheduling for Cloud Services with Data Access Awareness. J. Par. and Distr. Computing 72, 4, 591-602 (2012).

19. Toporkov, V.V.: Job and Application-Level Scheduling in Distributed Computing. Ubiquitous Computing and Communication J. Applied Computing 4, 3, 559-570 (2009).

20. Toporkov, V.V., Toporkova, A., Tselishchev, A., Yemelyanov, D.: Job and Application-Level Scheduling:

an Integrated Approach for Achieving Quality of Service in Distributed Computing. In: 4th International Conference on Dependability of Computer Systems, pp. 202-209. IEEE CS Press, Los Alamitos (2009).

21. Toporkov, V.: Application-Level and Job-Flow Scheduling: an Approach for Achieving Quality of Service in Distributed Computing. In: Malyshkin, V. (ed.) PaCT 2009. LNCS, vol. 5968, pp. 350-359.

Springer, Heidelberg (2009).

22. Aida, K., Casanova, H.: Scheduling Mixed-parallel Applications with Advance Reservations. In: 17th IEEE Int. Symposium on HPDC, pp. 65-74. IEEE CS Press, New York (2008).

23. Ando, S., Aida, K.: Evaluation of Scheduling Algorithms for Advance Reservations. Information Processing Society of Japan SIG Notes. HPC-113, 37-42 (2007).

24. Elmroth, E., Tordsson, J.: A Standards-based Grid Resource Brokering Service Supporting Advance Reservations, Coallocation and Cross-Grid Interoperability. J. of Concurrency and Computation 25, 18, 2298-2335 (2009).

25. Toporkov, V., Toporkova, A., Bobchenkov, A., Yemelyanov, D.: Resource Selection Algorithms for Economic Scheduling in Distributed Systems. Procedia Computer Science. Elsevier 4, 2267-2276 (2011).

26. Топорков В.В. Пакетная обработка заданий в распределенных вычислительных средах с неотчуждаемыми ресурсами // АиТ. 2012. № 10. С. 52-70.

27. Toporkov, V., Tselishchev, A., Yemelyanov, D., Bobchenkov, A.: Dependable Strategies for Job-flows Dispatching and Scheduling in Virtual Organizations of Distributed Computing Environments. In:

Complex Systems and Dependability. AISC, vol. 170, pp. 240-255. Springer, Heidelberg (2012).

28. Moab Adaptive Computing Suite, http://www.adaptivecomputing.com/products/moab-adaptive computing-suite.php.

29. Toporkov, V., Toporkova, A., Tselishchev, A., Yemelyanov, D.: Slot Selection Algorithms for Economic Scheduling in Distributed Computing with High QoS Rates. In: New Results in Complex Syst.



Pages:   || 2 |
 

Похожие работы:





 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.