[Из песочницы] Bigdata стек глазами воинствующего ораклойда

На Хабре и прочих интернетах чуть не каждый день постят пустые статьи о бигдата, создавая у спецов стойкое ощущение, что кроме маркетинга за стеком бигдаты ничего нет. На самом деле там достаточно интересных технологий под капотом Hadoop и тут я хочу слегка разбавить маркетинг, взглядом технического спеца с опытом Oracle.

В первую очередь стоит понимать, что один из столпов бигдаты Hadoop, это не только батч процессинг и map-reduce, как многие пытаются изобразить. Это запросто может быть обработка и с противоположного спектра задач: чтение потока мелких сообщений, например от IoT (spark на Hadoop, читает Kafka stream), на ходу агрегируя и выявляя отклонения. Читать дальше →

Почтовое приложение Spark от украинских разработчиков получило интеграцию с Todoist, Wunderlist, Trello и Apple Reminders

Популярное почтовое приложение Spark, разработкой которого занимается украинская компания Readdle, было обновлено и получило ряд интересных функций. Так, вышли версии Spark 1.4 для macOS и Spark 1.9 для iOS. Наиболее существенным новшеством обновлённых версий Spark стала интеграция с рядом сторонних сервисов: Things, Todoist, Wunderlist, Trello, Asana. Также добавлена интеграция с приложением Apple Reminders. Интеграция с […]

[Перевод] R и большие данные: использование Replyr

replyr — сокращение от REmote PLYing of big data for R (удаленная обработка больших данных в R).

Почему стоит попробовать replyr? Потому что он позволяет применять стандартные рабочие подходы к удаленным данным (базы данных или Spark).

Можно работать так же, как и с локальным data.frame. replyr предоставляет такие возможности:

  • Обобщение данных: replyr_summary().
  • Объединение таблиц: replyr_union_all().
  • Связывание таблиц по строкам: replyr_bind_rows().
  • Использование функций разделения, объединения, комбинирования (dplyr::do()): replyr_split(), replyr::gapply().
  • Аггрегирование/распределение: replyr_moveValuesToRows() / replyr_moveValuesToColumns().
  • Отслеживание промежуточных результатов.
  • Контроллер объединений.

Скорее всего, вы всё это делаете с данными локально, поэтому такие возможности сделают работу со Spark и sparklyr гораздо легче.

replyr — продукт коллективного опыта использования R в прикладных решениях для многих клиентов, сбора обратной связи и исправления недостатков.

Примеры ниже.
Читать дальше →

Big Data в Райффайзенбанке

Всем привет!

В этой статье мы расскажем про Big Data в Райффайзенбанке.
Но прежде чем перейти к сути, хотелось бы внести ясность по поводу самого определения Big Data. Действительно, в последние несколько лет этот термин употреблялся во множестве контекстов, что привело к размытию границ самого термина и потере содержательной части. Мы в Райффайзенбанке выделили три направления, которые мы относим к Big Data:
Читать дальше →

KeddrVlog e83 | Летаем на DJI Spark,

Всем хорошего вечера! В эфире 83-й выпуск видеоблога от Keddr.com. Сегодня мы расскажем про новый […]