28 марта 2022

Симулируем с Azure по-взрослому (анонс выступления)

Симулируем с Azure по-взрослому (анонс выступления)

Уже завтра, 29-го марта, на конференции Azure Day расскажу про то, как в условиях санкций и/или подготовки к финансовому кризису подготовить себе еще одну «подушку безопасности» - собрать валютный портфель.

Конференция бесплатная и пройдет онлайн, так что обязательно присоединяйтесь!

10 марта 2022

Intelligent Financial Fraud Detection (выступление)

Intelligent Financial Fraud Detection (выступление)

Финансовое мошенничество представляет собой серьезную угрозу, ежегодные убытки от которой оцениваются в сотни миллиардов долларов. Меры по борьбе с мошенничеством включают в себя контроль транзакций на основе экспертных правил, и, все чаще, моделей, основанных на технологиях Машинного обучения.

Именно применение Машинного обучения для обнаружения финансового мошенничества и стало темой моего доклада. Материалы доклада представлены ниже.

04 марта 2022

Россия 2022: как не потерять все (или хотя бы попытаться)

Всем Peace,

Мир за последнюю неделю сильно поменялся. И в нем, к сожалению, не стало больше добра, науки и счастливых детей.

Я начал важный проект, связанный с попыткой донести до широких масс (а потом и помочь) построить свои финансы так, чтобы в кризисный момент они смогли выплачивать проценты по ипотеке, их дети хорошо питались, а жены - не плакали из-за финансовых вопросов.

Это сложный путь, и я его решил начать с себя.

Первым шагом я создал проект на GitHub и выпустил пост на Habr «Россия 2022: как не потерять все (или хотя бы попытаться)», посвященный этому проекту.

Если после прочтения, Вы почувствуете в себе желание и силы поучаствовать в этом проекте, то обязательно свяжитесь со мной, используя любой удобный канал связи.

11 апреля 2020

AI: перспективы, хайп, и когда нас заменят роботы (интервью)

AI: перспективы, хайп, и когда нас заменят роботы (интервью)

Прям перед всеобщим карантином Михаил Ивлиев (онлайн-школа IQBI) пригласил меня на интервью, поговорить о машинном обучение, о трендах в нем, перспективах, хайпе и многом другом. Разговор получился интересным и прошел на одном дыхании. Надеюсь будет интересным и Вам.

Введение в язык программирования R (online курс)

Введение в язык программирования R (online курс)

Долгое время я хотел записать курс про язык программирования R.

Рассказать про R, не отвлекаясь на объяснение теории машинного обучения, математической статистики и многих других интересных задач, которые удобно решать на этом языке.

А вместо задач сконцентрироваться на самом инструменте – языке R, на изящности его синтаксических конструкции, удобстве инструментов разработки под него, многообразии и узкой специализированности (packages) под R, на простых и одновременно мощных средствах визуализации, доступных R разработчикам.

Начало положено: первые четыре урока записаны и доступны в свободном доступе!
Спешу с вами поделиться результом.

27 ноября 2019

DΛTA x GEEKS митап

DΛTA x GEEKS митап<

Приветствую всех!

3-го декабря в 19:00 соберемся на юбилейный десятый (он же X :) митап группы DΛTA GEEKS.

К такой особенной встрече у нас не менее особенные докладчики: Дмитрий Сошников, Cloud Developer Advocate (Microsoft) и Алексей Любко, основатель и CTO (Pryaniky.com).

Как всегда нас ждут 2 интереснейших доклада, чай-кофе-печенье (или что-то съедобное) и позитивное общение!

В программе:

18:45-19:00 Приветственный кофе
19:00-19:45 mPyPl: функциональный подход к обработке сложных данных на Python для глубокого обучения, Дмитрий Сошников
19:45-20:00 Кофе-брейк
20:00-20:45 AI, мы ищем таланты! Как использовать анализ данных в работе с персоналом, Алексей Любко
20:45-21:15 Общение + fun.

02 сентября 2019

ML для ленивых, или готовим AutoML

ML для ленивых, или готовим Auto ML

Всем привет!

Плохая новость – лето подошло к концу; хорошая – наступает время конференций, ИТ-тусовок и безумных предновогодних проектов. На одно из мероприятий, где это все (и еще бесплатная пицца :) ) будет, я и хочу с радостью вас пригласить.

Global AI Night – митап, который проходит одновременно по всему миру при поддержке 90 ИТ-сообществ. Как не сложно догадаться, митап посвящен теме машинного обучения.

Мне выпала честь быть пригашенным туда российским MVP Community в качестве спикера. Свое выступление я посвящу теме Automated Machine Learning: расскажу, что это за зверь в зоопарке ML, сделаю обзор основных концепций и фрейморков для Auto ML, а также проведу пару безумных, как и было заявлено, демок.

13 апреля 2019

AI в банках на Azure Day Spb 2019

AI в банках на Azure Day Spb 2019

AI in banking

В конце прошлой неделе мне выпала честь выступить на конференции Azure Day 2019 [3], где я рассказывал о кейсах применения технологий AI в розничных и коммерческих банках.

Спешу выложить в свободный доступ появившиеся материалы.

30 ноября 2018

IaaS, PaaS и DevOps для Data Science. Анонс серии докладов

IaaS, PaaS и DevOps для Data Science. Анонс серии докладов

В конце ноября-начале декабря я выступлю в роли докладчика на 3-ех мероприятиях [1]. На всех трех я буду поднимать одну и ту же тему – облачные технологии для задача машинного обучения. В зависимости от тематики конференции я попытаюсь осветить тему AI + Cloud то больше с точки зрения .NET-разработчика, а то больше с точки зрения data scientist’a.

Спешу поделиться с вами материалами:

22 ноября 2018

Список конференций в декабре для .NET-разработчика и Data Scientist'а

Всем привет!

Не мог удержаться и не написать этот пост. В декабре пройдет большое количество конференций и митапов для .NET разработчиков и Data Scientist'ов.

Это стало возможным благодаря усилиям MVP community (в коем Ваш покорный судья состоит), энтузиастов, сотрудников Microsoft и, уверен, и еще многих других компаний.

Ниже приведу список конференций в хронологическом порядке (жирным выделены особенно понравившиеся):

09 июля 2018

AIST хакатон: дружим AI с Blockchain

AIST хакатон: дружим AI с Blockchain

Давно я не участвовал в хакатонах (последние раз это было в качестве ментора и жюри), но хакатон AIST Hack [1] как-то сразу привлек мое внимание.

Привлек не в последнюю очередь мегахайвопой темой 'AI в блокчейне', а также близостью к моим интересам-образованию-профессии: у меня высшее образование по специальность Прикладная информатика в экономике и аспирантура по Математическому моделированию, с этим бэкграундом я успел поработать как на поприще финансовых рынков, так и банковского сектора, кроме этого я постоянно испытываю плохо контролируемых интерес к теме AI + Bitcoin.

Ну так вот: звезды сошлись, и я как Oxxxymiron решил тряхнуть стариной и поучаствовать в рэп-батле хакатоне. Что из этого получилось – расскажу ниже.

24 мая 2018

Нейронные сети в облаке (Azure Day Conference)

Нейронные сети в облаке (Azure Day Conference)

NN in Microsoft Azure

Последние 3 года мы все наблюдаем взрывной рост числа приложений и сервисов, использующих технологии искусственного интеллекта. Одним из ключевых кирпичиков построения таких приложений являются платформы, представляющие инфраструктуру (backend для AI). И во многом локомотивами развития таких бекэндов стали именно облачные платформы.

В рамках своего доклада на конференции Azure Day я попытался разобраться в существующем в облаке Azure многообразии AI-сервисов и инструментов, рассмотрел, как построить в облаке современный AI-стек для решения Deep Learning задач, а напоследок, еще и обучил глубокую нейронную сеть на GPU-инстансе Azure VM.

30 марта 2018

Введение в машинное обучение

Введение в машинное обучение

Не так давно я делал введение в глубокое обучение (Deep Learning) пришла пора выпустить приквел и рассказать собственно про машинное обучение.

Собственно, ниже я буду собирать материалы (слайды, код, видео) со своих лекций по этой теме. Пока материалов немного (первая лекция завтра), но я с радостью спешу ими с вами поделиться.

27 февраля 2018

Введение в Deep Learning

Введение в Deep Learning

Около 5 тысяч лет назад биологический интеллект (Homo Sapiens) начал создавать универсальный язык, на котором собирался описывать процессы, происходящие вокруг него. И удивительная вещь: оказалось, что этим языком получалось описать как очень крупные объекты (скажем, черные дыры), так и в очень маленькие (например, электроны). Вы, конечно же, догадались, что имя этого языка «математика».

Не прошло еще и ста лет, как тот же биологический интеллект (человечество) изобрел лампово-кремнивые «орудия труда», которые в своей роботе оперируют математической логикой. И опять вы догадались, что речь идет о ЭВМ.

И прошли считанные десятилетия, как человечество с помощью специального математического описания научили компьютеры показывать поведение, которое не было в них заложено/запрограммировано явно (они учились!). Так биологический интеллект начал создавать «думающий» (пока в кавычках) небиологический, а еще точнее искусственный, интеллект.

И этот созданный интеллект помогал человеку с решением рутинных и не очень задач, помогал все лучше и лучше. И прошли считанные на пальцах одной руки годы, как ИИ начал решать какие-то из этих задач на уровне человека, а какие-то и лучше…

13 декабря 2017

Сервис предсказания цены Bitcoin

Сервис предсказания цены Bitcoin

Microsoft Machine Learning Server. Part II

data geeks meetup

Биткоин Прогресс не стоит на месте. И, безусловно, технология блокчейн и производные от нее технологии, в первую очередь криптовалюты, не могут не вызвать интереса у любого, кто интересуется технологиями и всем новым.

Поэтому уже завтра (14-го декабря) на новогодней встрече Data Geeks Community я продолжу свои эксперименты с применением технологий машинного обучения к задаче предсказания курса биткоина.

17 ноября 2017

Microsoft Machine Learning Server

Microsoft Machine Learning Server

Part I: Architecture View

data geeks meetup

R зарекомендовал себя как отличный статистический пакет для анализа данных: его широко используют в академической среде, с его помощью энтузиасты выигрывают в соревнованиях Kaggle, хедж-фонды занимаются анализом финансовых рынков.

Но требования, предъявляемые к исследовательской деятельности, зачатую сильно отличаются от требований, предъявляемых к программным продуктам в Enterprise-среде.

В серии докладов про Microsoft Machine Learning Server (бывший Microsoft R Server) мы познакомимся ближе с данным программным фреймворком, с тем, как его применение поможет выполнять R-скрипты многопоточно на многопроцессорной машине, распределено на Spark-кластере, как публиковать ML-модели в виде высоконагруженный REST-сервисов и многое другое.

И первый доклад пройдет уже сегодня на встрече Data Geeks Community (о нем еще обязательно позже расскажу). Спешу поделиться с вами материалами с этого доклада.

20 сентября 2017

AI в IoT: встреча IoT-коммьюнити

AI в IoT: встреча IoT-коммьюнити

Симбиоз технологий Интернета вещей (IoT) и технологий искусственного интеллекта (AI) могут (или уже?) открыть новые горизонты для широкого распространения датчиков в нашей повседневной жизни, так и в промышленности.

О том, в каком состоянии сегодня пребывает «дружба» IoT и AI, а также о конкретных задачах в авиапромышленности и здравоохранении расскажу уже сегодня (20 сентября) на открытой встрече Russian IoT Community. Презентация с моего доклада представлена ниже.

15 августа 2017

Cloud Summer Cutting Edge 2017

Cloud Summer Cutting Edge 2017

Open Source & ML

Лето в этом году было облачным Первая новость, которую я хочу сообщить с особой гордостью за российских разработчиков в частности и за страну в общем – Яндекс выложила свою библиотеку машинного обучения CatBoost в открытый доступ. Высокая точность предсказания и способность работать как с категориальными, так и числовыми предикторами заявляются killer-фичами ML-фреймоворка от Яндекс. Тем самым Яндекс присоединилась к таким гигантам как Microsoft, Google, Amazon, в деле открытия исходных кодов своих AI-алгоритмов для Data Science (DS) сообщества.

28 июня 2017

Payment Security 2017: Machine Intelligence for Fraud Prediction

Payment Security 2017: Machine Intelligence for Fraud Prediction

antifraud paradigms comparison

Уже завтра состоится конференция Payment Security. Как несложно догадаться по названию, конференция собирает экспертов в сфере безопасности платежей, а также всех интересующихся этой актуальной темой специалистов – от начальников служб безопасности банков до разработчиков стартапов, предоставляющих своим пользователям возможности онлайн-оплаты.

Я, в свою очередь, расскажу про применение машинного интеллекта для задачи обнаружения мошенничества по пластиковым картам.

12 апреля 2017

Демократизация ИИ или машинное обучение не для всех

Демократизация ИИ или машинное обучение не для всех

Machine Learning tools evolution

Март-апрель были (и еще будет) богаты на всякого рода встречи российского Azure-сообщества. Это хакатон Breakpoint, по Azure-митапы в Москве и Санкт-Петербурге, конференция Global Azure Bootcamp и DevCon School.

На паре мероприятий мне выпала честь поучаствовать в качестве спикера. Спешу поделиться материалами рассказанного словами и продемонстрированного (как в качестве презентации, так и в качестве демо).

UPD1 [2017-04-20]: добавлены описание и ссылки. UPD2 [2017-04-22]: добавил результаты демо.

27 марта 2017

Google Cloud Platform: о планах стать лучшей .NET-платформой

Google Cloud Platform: о планах стать лучшей .NET-платформой

Источник изображения [1]

Не так давно (8-10 марта) проходила конференция Google Next 2017 [1]. На ключевом докладе (keynote) второго дня вице-президент Google Brain Stevens заявил буквально следующее:

Мы (Google Cloud Platform – прим. перевод.) не просто хотим быть нормальной Windows-платформой. Мы хотим быть отличной Windows-платформой, и, возможно, даже лучшей Windows-платформой.
Our goal isn’t just to be an OK Windows platform. We want to be a great Windows platform, and perhaps the best Windows platform.
Brain Stevens, Google Vice President

13 ноября 2016

Машинное обучение в розничных банках (Moscow Cognitive Computing Community)

Машинное обучение в розничных банках (Moscow Cognitive Computing Community)

Хочу сделать анонс встречи Moscow Cognitive Computing Community, которая пройдет 15 ноября в Москве. В первую очередь, этот митап будет интресен тем, кто ипользует/собирается использовать в своих проектах технологии распознания лиц, голоса, интеллектуальных голосовых помощников или чат-боты.

В свою очередь, я на этой встречи расскажу о практических кейсах применения машинного обучения в розничных банках. Немного попозже дополню статью материалами с выступления UPD [15.11.2016]: презентация прикреплена.

big data in banking

02 ноября 2016

R + Apache Spark в облаке Azure (Microsoft DevCon)

R + Apache Spark в облаке Azure (Microsoft DevCon)

Всем привет!

Спешу поделиться материалами с выступления на конференции Microsoft DevCon School, которая проходила 1 ноября на территории центра Digital October.

Сейчас выложу только слайды, но постепенно дополню отчет и другими материалами с конференции. UPD [13.11.2016]: опубликован исходный код demo-задач, решаемых на интенсиве по R.

20 октября 2016

AWS vs Microsoft Azure: GPU в облаке

AWS vs Azure: GPU в облаке

Погружение

Существует довольное большое количество задач, где вычисления на процессорах графических карт ведет к значительному сокращению как времени вычислений, так и финансовых затрат, необходимых для построения и поддержания соответствующей аппаратной инфраструктуры.

Как правило, это compute-intensive задачи, оперирующие большим объемом данных. Одним из наиболее перспективных направлений применения GPU-вычислений являются задачи машинного обучения, в общем, и задачи, относящиеся к классу deep learning, в частности. Но приобретение/владение сервером с высокопроизводительной графической картой – мероприятие не из самых дешевых. И тут облачные провайдеры пришли на помощь стартапам, частным исследователям и просто энтузиастам.

Пионером в GPU-on-demand была Amazon: компания анонсировала доступность в облаке AWS виртуальных машин с GPU еще в 2010 году. А совсем недавно в Microsoft Azure также появилась возможность получить VM c возможностью вычисления на высокопроизводительных графических процессорах NVidia.

1. GPU in Azure

В начале августа 2016 года было объявлено о начале закрытого тестирования (private preview) инстансов виртуальных машин, оборудованных картами NVidia Tesla [1]. Эта возможность предоставляется в рамках сервиса Azure VMIaaS-сервис предоставляющий виртуальные машины по требованию (аналог Amazon EC2).

C точки зрения доступа приложения к графическому процессора архитектура сервиса выглядит так:

Azure VM GPU Instances Architecture

17 октября 2016

AWS vs Microsoft Azure: как платить меньше?

AWS vs Microsoft Azure: как платить меньше?

При текущем уровне научно-технического прогресса необязательно быть огромной производственной компанией, чтобы появилась необходимость использовать в своих ИТ-системах 10 Тб отказоустойчивого геораспределенного хранилища. Как и необязательно быть HFT-компанией с Wall Street, чтобы иметь Apache Spark кластер или делать высокопроизводительные расчеты на GPU.

В различных сферах жизни уже появилось достаточное количество задач, для решения которых нужны довольно сложные и дорогие серверные инфраструктуры. С такими задачами с завидной периодичностью уже сейчас сталкиваются стартапы, исследователи, студенты, просто энтузиасты, которые, к примеру, участвуют в соревнованиях в Kaggle.

Сегодня облачные платформы предоставляют нам все вышеперечисленное по требованию (on-demand).

Который год подряд на рынке облачных услуг я вижу очень интенсивное развитие как в части качества облачных сервисов, так и в части их разнообразия. Одним из характерных атрибутов развития становится все более широкая доступность этих сервисов с финансовой точки зрения.

Но кроме снижения цены на сервисы, немаловажным в популяризации облачных вычислений является, что у таких провайдеров как AWS или Microsoft Azure есть различные программы, позволяющие использовать их облачные сервисы бесплатно, либо со значительной скидкой.

Ниже сравним предложения от 2-ух крупнейших облачных провайдеров Microsoft Azure и Amazon.

19 мая 2016

Data Science с R в Microsoft Azure (часть 2)

Data Science с R в Microsoft Azure (часть 2)

R, один из популярнейших языков программирования среди data scientist'ов, получает все большую и большую поддержку как среди opensource-сообщества, так и среди частных компаний, которые традиционно являлись разработчиками проприетарных продуктов. Среди таких компаний – Microsoft, чья интенсивно увеличивающая поддержка языка R в своих продуктах/сервисах, привлекла к себе и мое внимание.

Одним из «локомотивов» интеграции R с продуктами Майкрософт является облачная платформа Microsoft Azure. Кроме того, появился отличный повод повнимательнее взглянуть на связку R + Azure – это проходящий в эти выходные (21-22 мая) хакатон по машинному обучению, организованный Microsoft [1].

В прошлой части я озвучил 3 тезиса:

  1. 1. Время на хакатоне крайне ценный ресурс.
  2. 2. Правильная организация командной работы дает вам большое преимущество.
  3. 3. Azure ML – не инструмент прототипирования, для прототипирования стоит использовать R/Python.

Azure Machine Learning

Azure Machine Learning (Azure ML) – облачный сервис для выполнения задач, связанных с машинным обучением. Почти наверняка Azure ML будет центральным сервисом, которым вы будете пользоваться, в случае, если захотите обучить модель, в облаке Azure.

Подробный рассказ про Azure ML не входит в цели данного поста, в тем более, что о сервисе уже достаточно написано: Azure ML для data scientist’ов [3], best practices обучения модели в Azure ML [4]. Сконцентрируемся на следующей задаче: организация командной работы с максимально безболезненным переносом R-скриптов с локального компьютера в Azure ML Studio.

18 мая 2016

Data Science с R в Microsoft Azure (часть 1)

Data Science с R в Microsoft Azure (часть 1)

R, один из популярнейших языков программирования среди data scientist'ов, получает все большую и большую поддержку как среди opensource-сообщества, так и среди частных компаний, которые традиционно являлись разработчиками проприетарных продуктов. Среди таких компаний – Microsoft, чья интенсивно увеличивающая поддержка языка R в своих продуктах/сервисах, привлекла к себе и мое внимание.

Одним из «локомотивов» интеграции R с продуктами Майкрософт является облачная платформа Microsoft Azure. Кроме того, появился отличный повод повнимательнее взглянуть на связку R + Azure – это проходящий в эти выходные (21-22 мая) хакатон по машинному обучению, организованный Microsoft [1].

Хакатон – мероприятие, где кофе время чрезвычайно ценный ресурс. В контексте этого я ранее писал о best practices обучения моделей в Azure Machine Learning. Но Azure ML – это не лучший инструмент для прототипирования; это скорее сервис для создания готового продукта со всеми вытекающими отсюда затратами как на время разработки, так и на стоимость владения.

R же прекрасно подходит для создания прототипов, для копания (mining) в данных, быстрой проверки своих гипотез – то есть всего того, что нам нужно на такого типа соревнованиях! Ниже я расскажу, как использовать всю мощь R в Azure – от создания прототипа до публикации готовой модели в Azure Machine Learning.

03 апреля 2016

//Build/ 2016 и Strata + Hadoop World. Data-итоги

//Build/ 2016 и Strata + Hadoop World. Data-итоги

Прошлая неделя [c 28.03.2016 по 03.04.2016] была насыщена новостями о новинках/изменениях как в облачной платформе Azure, в частности, так и технологиях/продуктах Microsoft, в общем. Те, кто следит за новостями, знают, что такой всплеск связан с только что прошедшими конференциями «Strata + Hadoop World» и «//Build 2016».

Изменений настолько много, что, не приложив серьезных усилий, довольно сложно понять, какие перспективы открывают новинки как для увеличения эффективности существующих решений, так и для создания чего-то революционно нового.

Ниже я сделаю обзор изменений по темам, которые вызывают у меня наибольший профессиональный интерес – Data Platform и Data Science.

18 марта 2016

Обнаружения мошеннических транзакций по пластиковым картам. Научная публикация

Обнаружения мошеннических транзакций по пластиковым картам. Научная публикация

Моя научная публикация «Web service for detecting credit card fraud in near real-time» была опубликована на 8-ой международной научной конференции Security of Information and Networks (SIN '15). По сути публикация представляет компиляцию цикла статей «Антифрод как сервис». Публикация была скомпилирована и переведена на английский язык совместно с Алексеем Целых (Южный Федеральный Университет).

Как и в цикле статей, в публикации описываются основные концепции и архитектурные принципы создания сервиса обнаружения мошеннических транзакций по пластиковым картам, работающего в near real-time режиме и доступного клиентам через REST API.

14 декабря 2015

Машинное обучение в Microsoft Azure (Community Dev Camp)

Машинное обучение в Microsoft Azure (Community DevCamp)

Update [14.01.2015]: добавлено видео доклада на Community DevCamp.

Сortana analytics suite Reference: Ignite 2015

Всем привет!

Спешу поделиться материалами с моего выступления на Community Dev Camp, который прошел 11 декабря на территории центра Digital October.

Речь пойдет о стеке Cortana Analytics Suite. Подробно остановимся на сервисе Azure Machine Learning и решим задачу анализа тональности сообщений в социальных сетях для таких задач как:

28 ноября 2015

Machine Learning in Finance (Azure ML Hackathon 2015)

Machine Learning in Finance (Azure ML Hackathon 2015)

Azure ML: Machine Learning as a Service

Hello!

I want to share with the community the materials from my presentation at the Azure Machine Learning Hackathon 2015. To begin, I will publish only slides of my speech. Then, as the opportunity arises, I will upload a video of the presentation.

25 ноября 2015

Хакатон по машинному обучению. Прийти. Обучить модель. Победить!

Стандартный план любого хакатона ↓

Microsoft Azure Machine Learning Hackathon

В эти выходные пройдет хакатон по машинному обучению [1], организатором которого является компания Microsoft. У участников хакатона будет 2 дня для того, чтобы крепко не выспаться и сделать мир лучше.

Повествование в этой статье будет идти в стремительной манере, также как, полагаю, для большинства участников и пройдет хакатон. Никакой воды [2] (если вы не знакомы с Azure ML, то «воду» лучше все-таки почитать), долгих определений и таких длинных вступлений как это - только то, что вам нужно, чтобы победить на хакатоне.

19 октября 2015

Лекция в ВШЭ/МАМИ по Azure Machine Learning

Лекция в ВШЭ/МАМИ по Azure Machine Learning

Update [14.01.2015]: добавлено видео мастер-класса.

11 ноября в ВШЭ я проведу лекцию, посвященную облачному сервису предиктивной аналитики Azure Machine Learning.

Update: уже 23 ноября в МАМИ я проведу мастер-класс, приуроченный к пройдущему 28-29 ноября хакатону по машинному обучению от Microsoft. На этом мастер-классе сервис Azure ML также будет являться центральной темой.

В рамках обоих мероприятий будут рассмотрены основные принципы и концепции, лежащие в основе Azure ML, возможности, которые сервис предоставляет специалистам в области Data Science. Также пройдет обсуждение, чем сервисы предиктивной аналитики могут быть полезны как небольшим стартапам, так и научным исследовательским группам.

Последние 15 минут выступления будет посвящены секции «вопрос-ответ».

23 сентября 2015

Онлайн-курсы по Azure в EdX

Онлайн-курсы по Azure в EdX

Microsoft Azure on EdX

В дополнение к довольно большому количеству онлайн-курсов по Microsoft Azure, доступных в MVA [2], в EdX [1] совсем скоро пройдут 4 бесплатных онлайн-курса по облачной платформе Azure.

Один из них начался еще вчера (22 сентября), один начнется уже завтра (24 сентября). Ниже представлено краткое описание этих курсов.

11 сентября 2015

Azure ML: Machine Learning as a Service

Azure ML: Machine Learning as a Service

Azure ML: Machine Learning as a Service

Hello!

I want to share with IT community the materials from my presentation at the Moscow Data Fest conference. To begin, I will publish only slides of my speech. Then, as the opportunity arises, I will upload a video of presentation.

The presentation focused on cloud-based service of predictive analytic - Azure Machine Learning.

I will describe concepts and principles underlying Azure ML, as well as talk about how Azure ML can help data scientists to perform classification, clustering, sentiment analysis algorithms in Big Data-ready and LSML fashion.

25 июля 2015

Machine Learning в коммерческих банках

Machine Learning в коммерческих банках

big data in banking

По оценке компании McKinsey финансовая индустрия владеет до 25% данных, имеющихся в мире. Из них банки США хранят >1 экзабайта данных (McKinsey, 2013), объем данных российского банковского сектора оценивается в >100 терабайт (IBS, 2013).

Традиционно, используя имеющиеся данные, розничные банки на разных уровнях управления решают задачи:

  • управления рисками;
  • клиентоориентированности;
  • оптимизации операционной деятельности.

Перед современным банком по каждой из перечисленных задач стоит целый ряд проблем. Опишем их тезисно ниже.

Клиентоориентированность
Клиенты банков становятся все более и более требовательными как к банковскому сервису, так и к банковским продуктам. Клиентам уже не нужна «просто пластиковая карта». Клиентам нужен составной продукт, который позволит им покупать товары (offline и online); продукт, с постоянным и удобным доступом (со смартфона, планшета, домашнего ПК); продукт, который позволит экономить средства (скидки по карте, cashback, бонусы).

Управление рисками
Модели расчет банковских рисков, скоринговые модели все более и более усложняются, одновременно со сложностью моделей (качественной сложностью) растет и объем анализируемых данных (количественная сложность). А все увеличивающееся разнообразие способов оплаты (mPOS, мобильные платежи) и количество получателей платежей открывает все новые и новые фронты борьбы с мошенничеством.

Оптимизация операционных затрат
Увеличение конкуренции как со стороны виртуальных банков, так и со стороны стартапов, предоставляющих финансовые сервисы (P2P-кредитование, агрегаторы банковских счетов), вынуждают игроков на рынке банковских услуг снижать маржинальность многих банковских продуктов. В такой ситуации «полноценным» банкам важно уменьшать операционные издержки.

Общая проблема: обработка данных
Все возрастающие объемы как внутренних данных банка (профили клиентов, журнал финансовых операций и т.д.), так и внешних данных (данные НБКИ, отзывы в социальных сетях и т.д.) требует от банка качественно новых подходов к хранению и обработке данных.

Это лишь поверхностный список проблем, с которыми банковский сектор уже столкнулся.

Ниже мы рассмотрим практические банковские кейсы, которые решают разные части этих (и не только) проблем, а также как симбиоз концепций Больших Данных и методов машинного обучения позволяет эти проблемы решать.

31 марта 2015

Антифрод как сервис. Цикл статей

Антифрод-сервис. Цикл статей

No Fraud

Стремительный рост количества операций с пластиковыми картами, совершаемых через интернет, ставит перед разработчиками систем приема online-платежей все новые и новые вызовы, связанные с ростом масштаба таких систем и усложнением подходов к обеспечению их надежности и безопасности.

Не менее интенсивно растет количество мошеннических операций и разнообразие видов мошенничества. Россия, наряду с Англией, Францией, Германией, Испанией, входит в топ-5 европейский стран по годовому объему мошеннических операций с банковским картами. Общие объемы потерь от мошенничества по картам в 2013 году в Европе превысили 1 млрд. евро. На Россию приходится 110 млн. евро, из них 2,4 млн. евро мошенничество при оплате через интернет.

Этот цикл статей представляет собой описание эксперимента по созданию системы обнаружения мошеннических платежей по банковским картам.

Антифрод: машинное обучение

Антифрод: аналитическая система распознания мошеннических платежей

Статья из цикла «Antifraud Insights». Часть 4

В заключительной четвертой части статьи подробно обсудим наиболее сложную с технической точки зрения часть antifraud-сервиса – аналитическую систему распознания мошеннических платежей по банковским картам.

Выявление различного рода мошенничеств является типичным кейсом для задач обучения с учителем (supervised learning), поэтому аналитическая часть антифрод-сервиса будет построена с использованием алгоритмов машинного обучения.

Для стоящей перед нами задачи воспользуемся Azure Machine Learning – облачным сервисом выполнения задач прогнозной аналитики (predictive analytics).

Для понимания статьи будут необходимы базовые знания в области машинного обучения и знакомство с сервисом Azure Machine Learning.

Что уже было сделано? (для тех не читал предыдущие 3 части, но интересуется)

В первой части статьи мы обсудили, почему вопрос мошеннических платежей (fraud) стоит так остро для всех участников рынка электронных платежей – от интернет-магазинов до банков – и в чем основные сложности, из-за которых стоимость разработки таких систем подчас является слишком высокой для многих участников ecommerce-рынка.

Во 2-ой части были описаны требования технического и нетехнического характера, которые предъявляются к таким системам, и то, как я собираюсь снизить стоимость разработки и владения antifraud-системы на порядок(и).

В 3-ей части была рассмотрена программная архитектура сервиса, его модульная структура и ключевые детали реализации.

В заключительной четвертой части у нас следующая цель…

21 марта 2015

Антифрод: архитектура сервиса

Антифрод: архитектура Antifraud-сервиса

Статья из цикла «Antifraud Insights». Часть 3

Это третья часть эксперимента по созданию системы распознания мошеннических платежей (antifraud-система). Целью является создание доступного (в плане стоимости разработки и владения) antifraud-сервиса, который позволит сразу нескольким участникам проведения online-платежей – мерчантам, агрегаторам, платежным системам, банкам – снизить риски проведения мошеннических платежей (fraud) через их площадку.

В прошлой части мы сфокусировали внимание на функциональных и нефункциональных требованиях к антифрод-сервису. В этой части статьи рассмотрим программную архитектуру сервиса, его модульную структуру и ключевые детали реализации такого сервиса.

Инфраструктура

Сервис представляет собой несколько приложений, работающих в Microsoft Azure. Размещение с использованием облачной платформы вместо on-premise размещения не только позволит при незначительных временных затратах разработать сервис, отвечающий всем требованиям, перечисленным во второй части в разделе «Нефункциональные требования -> Атрибуты качества», но и существенно снизит первоначальные финансовые затраты на аппаратное и программное обеспечение.

Антифрод-сервис состоит из следующих систем:

  • Antifraud API Service – REST-сервис, предоставляющий API для взаимодействия с сервисом Fraud Predictor ML.
  • Fraud Predictor ML – сервис обнаружения мошеннических платежей, в основе которого лежат алгоритмы машинного обучения.
  • Transactions Log (лог транзакций) – NoSQL хранилище информации о транзакциях.

Кроме того, у сервиса имеются многочисленные программные клиенты (Clients), представляющие собой web-приложения мерчантов, либо js-виджеты, вызывающие REST-сервисы Antifraud API Service.

Принципиальная схема взаимодействия этих систем проиллюстрирована ниже.

Antifraud in azure

11 марта 2015

Антифрод: функциональные и нефункциональные требования

Антифрод: функциональные и нефункциональные требования

Статья из цикла «Antifraud Insights». Часть 2

В прошлой части было описано, почему проблема мошеннических платежей (fraud) стоит остро перед всеми участниками рынка online-платежей, какие сложности на пути создания собственной системы мониторинга мошеннических платежей (antifraud-системы) предстоит преодолеть, и почему для большинства мерчантов такие системы – дорогое удовольствие, за которое они не всегда готовы платить.

В этой части будут описаны требования к antifraud-системе, чье влияние на программную архитектуру является существенным.

05 марта 2015

Антифрод. Быстро, дешево… отлично

Антифрод. Быстро, дешево… отлично

Статья из цикла «Antifraud Insights». Часть 1

Эта статья представляет собой описание эксперимента по созданию системы обнаружения мошеннических платежей по банковским картам.

В первой части статьи я расскажу почему вопрос мошеннических платежей (fraud) стоит так остро для всех участников рынка электронных платежей – от интернет-магазинов до банков – и в чем основные сложности, из-за которых стоимость разработки таких систем подчас является слишком высокой для многих участников ecommerce-рынка.

Во второй части будут описаны требования технического и нетехнического характера, которые предъявляются к таким системам, и то, как я собираюсь снизить стоимость разработки и владения antifraud-системы на порядок(и).

В третьей части будет рассмотрена программная архитектура сервиса, его модульная структура и ключевые детали реализации.

В четвертой части статьи подробно обсудим наиболее сложную с технической точки зрения и наиболее интеллектуальную часть системы – самообучающуюся систему распознания мошеннических платежей.

Online Payment Flow

04 марта 2015

Azure Machine Learning для Data Scientist'а

Azure Machine Learning для Data Scientist'а

microsoft azure machine learning

Azure Machine Learning – облачный сервис для выполнения задач прогнозной аналитики (predictive analytics). Сервис представлен двумя компонентами: Azure ML Studio – средой разработки, доступной через web-интерфейс, и web-сервисами Azure ML.

Типичная последовательность действий data scientist'a при поиске закономерностей в наборе данных с использованием алгоритмов обучения с учителем изображена на иллюстрации ниже.

20 февраля 2015

Big Data и Machine Learning в Microsoft Azure. Анонсы

Big Data и Machine Learning в Microsoft Azure. Анонсы

ubuntu + hortonworks + microsoft Источник изображения: The Official Microsoft Blog [4]

На этой неделе компания Microsoft анонсировала целый ряд big data-/machine learning-сервисов в Microsoft Azure, которые появились в public-preview, либо уже перешли в General Availability (GA).

Много новостей о сервисе Azure HDInsight - PaaS-сервисe, предоставляющий Hadoop по требованию (on-demand) в облаке Microsoft Azure. C него и начнем.

13 января 2015

Hello, 2015! (или как я провел 2014-ый)

Hello, 2015! или как я провел 2014-ый

Hello, 2015!

С профессиональной точки зрения я вполне удовлетворен этим годом: я так же, как и в 2013-ом, много времени проводил непосредственно за разработкой, стал больше заниматься Computer Science, большое количество времени уделил образованию по Data Science. Единственное, чего стало заметно меньше – это сна.

13 ноября 2014

Big Data в Microsoft Azure. Анонсы

Big Data в Microsoft Azure. Анонсы

Microsoft love Big Data

Около полугода назад я публиковал ретроспективу того, что интересного для исследователей происходит в облаке Microsoft Azure.

Продолжу эту тему, немного сместив акцент в области, которые для меня последние пару лет неизменно остаются наиболее интересными в ИТ: Big Data, машинное обучение и их симбиозом с облачными технологиями.

Ниже обсудим преимущественно октябрьские анонсы сервисов Microsoft Azure, предоставляющих возможность пакетной и real-time обработки больших массивов данных, высокопроизводительный кластер по требованию, широкую поддержку алгоритмов машинного обучения.

24 мая 2014

Паттерны асинхронного программирования в .NET

Паттерны асинхронного программирования в .NET

Большинство современных приложений устроены так, что им необходимо постоянное взаимодействие с миром: получение данных из БД, отправка запросов на внешний web-ресурс, ожидание ввода пользователя.

Наиболее привычный синхронный вызов таких взаимодействий приводит к простаиванию потоков в ожидании ответов, к избыточному расходованию оперативной памяти (потоки впустую занимают память). Все это является причиной снижения производительности приложения, а также его невысокой способности к масштабированию.

Запросы к веб-сервисам и к внешним ресурсам (такие как, базы данных), запросы, интенсивно использующие I/O-операции - хорошей практикой в описанных случаях является использование шаблонов асинхронного программирования - способа выполнения длительных операций без блокировки вызывающего потока.

Выделают следующие паттерны асинхронного программирования:

  • асинхронный шаблон или Asynchronous Programming Model (APM);
  • асинхронный шаблон, основанный на событиях, или Event-based Asynchronous Pattern (EAP);
  • асинхронный шаблон, основанный на задачах, или Task-based Asynchronous Pattern (TAP).

В .NET модель AРМ появилась еще в первой версии фреймворка .NET. В .NET Framework 2.0 появилась модель EAP. TAP-паттерн базируется на типе Task, появившемся в .NET 4.0, и применении ключевых слов async и await, появившихся в компиляторе C# версии 5.

В API следующих классов есть поддержка вызовов асинхронных методов (доступно в .NET Framework 4.5):

  • работа c web-ресурсами: System.Net.Http.HttpClient, System.Net.WebRequest, System.Net.Sockets.Socket, System.Net.Dns, etc.;
  • работа с web-сервисами: инструменты генерации прокси для веб-сервисов (wsdl.exe и svcutil.exe) генерируют код вызова методов служб в соответствии с паттернами APM, EAP, TAP;
  • работа с файловой системой: StorageFile, StreamWriter, StreamReader, XmlReader;
  • работа с базами данных: System.Data.SqlClient.SqlCommand;
  • работа с графикой: MediaCapture, BitmapEncoder, BitmapDecoder.

Ниже обзорно рассмотрен каждый из паттернов асинхронного программирования, а также приведены примеры вызовов WCF-служб с использованием каждого из перечисленных шаблонов.

18 мая 2014

Real-time для Big Data

Real-time для Big Data. Обзор фреймворков

Ценность данных падает во времени. В некоторых системах ценность данных во времени падает драматически. К кейсам с такими характеристиками традиционно относят:

  • Системы мониторинга и анализа (в том числе веб-аналитики);
  • Задачи обнаружение подозрительных/мошеннических действий (fraud detection);
  • Задачи предсказанию пользовательской активности/пользовательских предпочтений в ecommerce, рекламных сетях, online-играх;
  • Задачи оптимизации работы отдельных устройств и/или сетей, объединяющих эти устройства;
  • Высокочастотных трейдинг на финансовых рынках.

Для всех этих задач latency является одним из ключевых требований к работе разрабатываемого ПО.

В этой статье обсудим фреймворки/платформы, предоставляющие разработчикам инструменты работы с Большими Данными в real-time- или near-real-time-режиме.

.NET-реализация map/reduce

.NET-реализация модели map/reduce (на одном вычислительном узле)

Hadoop + .NET Framework

При торговле на рынках ценных бумаг / валютных рынках одной из нередких задач является расчет величины (ширины) спреда. Спред (от англ. spread «размах») — разность между лучшими ценами заявок на продажу (ask) и на покупку (bid) в один и тот же момент времени на какой-либо актив (акцию, товар, валюту, фьючерс, опцион) [wikipedia].

Спред важен, так как отражает ликвидность актива. Так чем меньше спред, тем ликвиднее актив, и наоборот.

Проблема в том, что на финансовых биржах количество выставленных игроками заявок на покупку/продажу активов – это, в общем случае, цифра с 6-ю нулями. Количество финансовых инструментов, торгуемых, даже одной бирже также исчисляется тысячами.

Поэтому расчет спреда финансового инструмента – не самая тривиальная задача. Кроме того, эта задача является параллельной по данным и к ней вполне применены те практики, которые используются для решения задач, связанных с Большими Данными.

Ниже мы рассмотрим пример расчета спреда наиболее ликвидных акций биржи ММВБ-РТС, а также in-memory-реализацию программной модели map/reduce на C#, как эффективный подход к расчету спреда акций.

20 апреля 2014

Облака Microsoft Azure для исследователей. Ретроспектива

Облака Microsoft Azure для исследователей. Ретроспектива

Application building blocks for Azure Источник изображения: Windows Azure Dev Camp

Некоторое время назад с различной детализацией в своих публикациях освещал некоторые вещи, которые Microsoft делает в направлениях «Big Data + Cloud Computing» (серия статей про HDInsight, предоставляющий Hadoop-as-a-Service) и «Big Data + HPC» (серия статей про фреймворк распределенных вычислений Dryad).

Повторно мое внимание к этой теме привлек недавний анонс, что российские ученые получили грант Microsoft Research для исследований в области генетических заболеваний:

Исследователи Института общей генетики РАН и Института цитологии и генетики СО РАН получили грант на использование облачной платформы Windows Azure для исследований генов человека, вызывающих болезнь Альцгеймера.

06 апреля 2014

//BUILD 2014

//build 2014

Совсем недавно, 4 апреля, прошло закрытие самой масштабной в мире конференции по программным продуктам и технологиям Microsoft – Microsoft Build Developer Conference 2014 (или просто «Build 2014») Эта конференция о будущем (краткосрочном) технологий Microsoft, и она, безусловно, приковывает внимание профессионалов всего .NET-мира.

Традиционно любая ИТ-компания к такого типа конференциям готовит порцию новых девайсов / программным продуктов / сервисов и еще тонны маркетинговой чепухи. В Build 2014 меня, в первую очередь, интересовали хабы, посвященные облачной платформе Microsoft Azure и тому, что я называю «Microsoft Vision» - виденье будущего от Майкрософт.

build 2014 Источник изображения: buildwindows.com

05 апреля 2014

Exam 70-483: Programming in C#

Exam 70-483: Programming in C#

Довольно продолжительное время (~TimeSpan.FromDays(100)) ни в этом блоге, ни на моей странице на Хабре не появлялось новых публикаций. Причин этому было две. Первая, моя академическая деятельность в Балтийском Федеральном Университете подошла к концу. Вторая, появившееся свободное время я занял подготовкой к сдаче сертификационного экзамена Microsoft «70-483: Programming in C#».

31 декабря 2013

</2013>

</2013>

Это очень короткий новогодний пост (:

Всех с Новым 2014 годом!
Терпения, упорства и новых открытий!

29 декабря 2013

Google Platform. Серия статей

Google Platform. Серия статей

В мире есть компания, которая решает проблемы Big Data вот уже 10 лет. Есть уверенность, ни одна коммерческая компания или некоммерческая организация не оперирует большим объемом данных, чем эта компания.

Данная компания являлась основным контрибьютором идей платформы Hadoop, а также многих компонентов экосистемы Hadoop, таких как HBase, Apache Giraph, Apache Drill.

Как Вы уже вероятно догадались, речь идет о Google.

В серии статей «Google Platform» будут рассмотрена история развития инструментов работы с Большими Данными в Google, а также подробно рассмотрены основные компоненты созданной инженерами Google «Big Data»-инфраструктуры.

22 декабря 2013

Google Photon. Обработка данных со скоростью света

Google Photon. Обработка данных со скоростью света*

Статья из цикла «Google Platform»

Photon – масштабируемая, отказоустойчивая и географически распределенная система обработки потоковых данных в режиме реального времени. Система является внутренним продуктом Google и используется в Google Advertising System. Research paper [5], описывающие базовые принципы и архитектуру Photon, был представлен на научной конференции ACM SIGMOD в 2013 году.

В research paper [5] заявлено, что пиковая нагрузка на систему может составлять миллионы событий в минуту со средней end-to-end задержкой менее 10 секунд.

01 декабря 2013

Dremel. Как Google считает в real-time?

Dremel. Как Google считает в real-time?

Статья из цикла «Google Platform»

Dremelмасштабируемая система обработки запросов в режиме близком к режиму реального времени (near-real-time), предназначенная для анализа неизменяемых данных [4].

Авторы research paper [4] (среди которых, судя по всему, и наши соотечественники - Сергей Мельник и Андрей Губарев), в котором описываются базовые принципы и архитектура Dremel, заявляют, что система в силах:

  • выполнять агрегирующие запросы над боле чем над триллионом строк за секунды;
  • масштабируется на тысячи CPU;
  • предназначена для работы с петабайтами данных;
  • имеет тысячи пользователей внутри Google (дословно «at Google»).

Spanner. NewSQL СУБД от Google

Spanner. NewSQL СУБД от Google

Статья из цикла «Google Platform»

Spannerгеографически распределенная высокомасштабируемая мультиверсионная база данных с поддержкой распределенных транзакций. База данных была разработана инженерами Google для внутренних сервисов корпорации. Research paper [8], описывающие базовые принципы и архитектуру Spanner, был представлен на научной конференции 10th USENIX Symposium on Operating Systems Design and Implementation в 2012 году.

Spanner является эволюционным развитием NoSQL-предшественника – Google Bigtable. Сам же c Spanner относят к семейству NewSQL-решений. В research paper [8] заявляется, что дизайн Spanner позволяет системе масштабироваться на миллионы вычислительных узлов через сотни дата-центров и работать с триллионами строк данных.

28 ноября 2013

Colossus. Распределенная файловая система от Google

Colossus. Распределенная файловая система от Google

Статья из цикла «Google Platform»

Colossus (или GFS2) – это проприетарная распределенная файловая система от Google, запущенная в production-режиме в 2009 году. Colossus является эволюционным развитием GFS. Как и ее предшественник GFS, Colossus оптимизирована для работы с большими наборами данных, прекрасно масштабируется, является высокодоступной и отказоустойчивой системой, а также позволяет надежно хранить данные.

В то же время, Colossus решает часть задач, с которыми GFS не справлялась, и устраняет некоторые узкие места предшественника.

27 ноября 2013

Google MapReduce

Google MapReduce

Статья из цикла «Google Platform»

MapReduce – это программная модель, описанная инженерами Google в research paper [2], и ассоциированная с этой программной моделью реализация (фреймворк), позволяющий обрабатывать большие объемы данных распределено.

В простейшем случае в программной модели MapReduce выделяют 2 фазы:

  • map(ƒ, c): принимает функцию ƒ и список c. Возвращает выходной список, являющийся результатом применения функции ƒ к каждому элементу входного списка c.
    map(f, c)
  • reduce(ƒ, c): принимает функцию ƒ и список c. Возвращает объект, образованный через свертку коллекции c через функцию ƒ.
    reduce(f, c)

26 ноября 2013

Bigtable. Хранилище для петабайтов данных Google

Bigtable. Хранилище для петабайтов данных Google

Статья из цикла «Google Platform»

Bigtable – высокопроизводительная база данных, реализующая колоночную схему хранения и построенная на основе GFS и некоторых других внутренних продуктах Google. Как и GFS, Bigtable – проприетарная система, внутреннее устройство которой, тем не менее, было подробно описано инженерами Google в research paper [3].

Bigtable – хорошо масштабирующееся хранилище данных, рассчитанное на хранение петабайтов информации и работающее на commodity-серверах. Bigtable работает на production-серверах с 2005 года. В разное время в BigTable хранили данные web-индексов, сервисов Google Analytics, Google Earth, Google Finance [3].

Google File System (GFS)

Google File System (GFS)

Статья из цикла «Google Platform»

Google File System (GFS) – распределенная файловая система (ФС) Google. Система является проприетарной, по некоторым сведениям работа над GFS была начата еще в 2000 году; общие принципы построения были довольно подробно описаны в документе [1], представленном на ACM SIGOPS Operating Systems Review в 2003 году.

Google Platform. Введение

Google Platform. Введение

Вводная статья цикла «Google Platform»

Хранение и обработка данных – это задача, которую человечество с переменным успехом решает ни одну тысячу лет. Проблемы, связанные с решением этой задачи, связаны не только с физическим объемом данных (volume), но и со скоростью изменчивости этих данных (velocity) и многообразием (variety) источников данных – то, что аналитики Gartner в своих статьях [11, 12] обозначили как «3V».

Количественные изменения в системе неизменно переходят в качественные [13]. Изобретение письменности, книгопечатанье, автоматизированные средства обработки данных разумно рассматривать, как ответ на вызов, который ставит проблема 3V.

Современная Computer Science сейчас встретилась с проблемой Больших данных, решения которой от ИТ ждут частные компании, правительства, научное сообщество (которое не занято в computer science).

Но в мире есть одна компания, которая встретилась с проблемой Big Data еще порядка 10 лет назад. По моему ощущению (т.к. чтобы заявить достоверно нужны открытые данные, которых в свободном доступе нет) ни одна коммерческая или некоммерческая организация не оперирует большим объемом данных, чем эта компании.

Именно эта компания являлась основным контрибьютором идей платформы Hadoop, а также многих компонентов экосистемы Hadoop, таких как HBase, Apache Giraph, Apache Drill.

Как Вы догадались, речь идет о Google.

25 ноября 2013

Cloud OS Summit 2013. Один день до облачной конференции от Microsoft

Cloud OS Summit 2013. Один день до облачной конференции от Microsoft

Cloud OS Summit 2013
At Build Conference (…) Microsoft reported big numbers for Azure, too: 8.5 trillion storage objects, 900,000 storage transactions processed per second, and 250,000 customers on the platform, with 1,000 new ones added every day.
-- VisualStudioMagazine.com 07.07.2013

Никогда бы не подумал, что Microsoft начнет проводить конференции по своей облачной платформе Windows Azure чаще, чем раз в год (тем более, что уж тут греха таить, в России).
Но, к моему приятному удивлению, все именно так – в феврале 2013 года проходила конференция Windows Azure Summit, о которой я также писал, а менее чем через день – 27 ноября – пройдет конференция Cloud OS Summit.

02 ноября 2013

Hadoop + Windows Azure: «дружба» в Enterprise

Hadoop + Windows Azure: «дружба» в Enterprise

За последние пол месяца произошло три ИТ-события, лежащие в плоскости Big Data, Cloud Computing и на их симбиозе. По странному стечению обстоятельств эти события остались без должного внимания как со стороны хабросообщества, так и со стороны немногочисленных профессиональных сетевых сообществ в LinkedIn и Facebook.

События, о которых идет речь — конференция «Strata + Hadoop World», релиз стабильной версии Hadoop 2.2.0 и облачного сервиса Windows Azure HDInsight. О косвенной и прямой взаимосвязи этих событий речь и пойдет ниже.

Windows Azure HDInsight 2.1 Ecosystem

27 октября 2013

Функциональность, время, ресурсы. Непростой выбор

Функциональность, время, ресурсы. Непростой выбор

Конфликты. Компромиссы. Возможность выбора

Переговоры с заказчиком - это всегда конфликт интересов.

От ораторских умений переговорщиков как со стороны ИТ, так и со стороны бизнеса, и от их способности приходить к компромиссам зависит в насколько «удобных» для обоих сторон условиях будет проходить разработка приложений.

functionality vs time vs resources

Казалось бы: причем тут ИТ? В современных условиях team leader начал должен выполнять роль переговорщика - ТЗ уже не согласовывается единовременно в начале разработки группой начальников («водопад»), вместо этого каждый цикл развития ПО (спринт) итеративно вырабатываются/берутся из пула новые требования (гибкие методы разработки).

Agile сменил Watterfall в таком количестве кейсов, что рынок уже требует, чтобы лидер команды разработки умел разговаривать с бизнесом на языке самого бизнеса. И даже лучше них.

22 октября 2013

Релиз стабильной версии Apache Hadoop 2.x

Релиз стабильной версии Apache Hadoop 2.x

Hadoop MapReduce 2.0

На днях - 15.10.2013 - состоялся релиз стабильной версии (Generally Available, GA) версии Apache Hadoop 2.x.

Об одном из, безусловно, самых инновационных изменений - вычислительном фреймворке YARN - я уже подробно писал. Кроме этого, к нововведениям Apache Hadoop 2.2.0 относятся:

02 июня 2013

Hadoop Insight. Цикл статей

Hadoop Insight. Цикл статей

В июне 2011 года было опубликовано исследование, проведенное аналитическим агентством IDC по заказу компании EMC, согласно которому объем информации в мире увеличивается более чем в два раза каждые два года. Согласно этому исследованию, в 2011 году будет создано и реплицировано 1,8 зеттабайт данных – быстрее, чем по закону Мура.

Big Data

Проблема - Big Data. Решение - Hadoop

Объем данных генерируемый и собираемый современными научно-исследовательским центрами, финансовыми институтами, социальными сетями действительно огромен. В дата-центрах Facebook уже хранится более 15 млрд. изображений, нью-йоркская фондовая биржа NYSE создает и реплицирует ежедневно около 1 Тб данных, большой адронный коллайдер генерирует около 40 Тб экспериментальных данных в день.

Dryad Insight. Цикл статей

Dryad Insight. Цикл статей

Представьте себе фреймворк общего назначения для распределенного исполнения приложений со следующими статистическими показателями (статистические данные за 2011 год):

Dryad Statistics

А теперь представьте, что это не Hadoop.

О том, что это за фреймворк, о идеях и концепциях, заложенных в его основу и о том, почему этот фреймворк более инновационный (субъективно), чем Hadoop, речь пойдет в цикле статей (о нем ниже).

26 мая 2013

Dryad vs Hadoop

Dryad vs RDBMS vs Hadoop

Третья статья из цикла статей «Dryad. Big Data от Microsoft»

В первых двух статьях цикла «Dryad. Big Data от Microsoft» был рассмотрен фреймворк распределенных вычислений от Microsoft – Dryad. В частности, подробно были описаны концепции и архитектура ключевых компонентов Dryad – среды исполнения Dryad и языка запросов DryadLINQ.

В третьей заключительной части цикла будет проведено сравнение фреймворка Dryad с другими MPP «инструментами» – реляционными СУБД, GPU-вычислениями и платформой Hadoop.

RDBMS vs Hadoop vs Dryad

DryadLINQ. Распределенный LINQ от Microsoft Research

DryadLINQ. Распределенный LINQ от Microsoft Research

Вторая статья из цикла статей «Dryad. Big Data от Microsoft»

В прошлой статье мы рассмотрели фреймворк распределенного исполнения приложений Dryad. В основе фреймворка лежит представление задания, как направленного ациклического графа, где вершины графа представляют собой программы, а ребра - каналы, по которым данные передаются. Также была обзорно рассмотрена экосистема фреймворка Dryad и сделан подробный обзор архитектуры одного из центральных компонентов экосистемы фреймворка – среды исполнения (runtime) распределенных приложений Dryad.

В этой статье мы рассмотрим компонент верхнего уровня программного стэка (software stack) фреймворка Dryad – язык запросов DryadLINQ.

LINQ vs PLINQ vs DryadLINQ

Автор статьи

,
Machine Learning Preacher, Microsoft AI MVP && Coffee Addicted