Лекция о двух библиотеках Яндекса для работы с большими данными

Пару недель назад в Яндексе прошла встреча PyData, посвящённая анализу больших данных с использованием Python. В том числе на этой встрече выступил Василий Агапитов — руководитель группы разработки инструментов аналитики Яндекса. Он рассказал о двух наших библиотеках: для описания и запуска расчетов на MapReduce и для извлечения информации из логов.

Под катом — расшифровка и часть слайдов.

Читать дальше →

Big Data в Райффайзенбанке

Всем привет!

В этой статье мы расскажем про Big Data в Райффайзенбанке.
Но прежде чем перейти к сути, хотелось бы внести ясность по поводу самого определения Big Data. Действительно, в последние несколько лет этот термин употреблялся во множестве контекстов, что привело к размытию границ самого термина и потере содержательной части. Мы в Райффайзенбанке выделили три направления, которые мы относим к Big Data:
Читать дальше →

Apache Spark как ядро проекта. Часть 2. Streaming, и на что мы напоролись

Привет коллеги.
Да, не прошло и три года с первой статьи, но проектная пучина отпустила только сейчас. Хочу с вами поделиться своими соображениями и проблемами касательно Spark streaming в связке с Kafka. Возможно среди вас есть люди с успешным опытом, поэтому буду рад пообщаться в комментариях.
Читать дальше →

В качестве приветствия

Всем привет.

С сегодняшнего дня Райффайзенбанк начинает свое вещание на Хабрахабр. За последние 2-3 года мы многое сделали с точки зрения внутренних преобразований, запуска и реализации ИТ-проектов. И нам есть, о чем рассказать.
Читать дальше →