[Перевод] R и большие данные: использование Replyr

replyr — сокращение от REmote PLYing of big data for R (удаленная обработка больших данных в R).

Почему стоит попробовать replyr? Потому что он позволяет применять стандартные рабочие подходы к удаленным данным (базы данных или Spark).

Можно работать так же, как и с локальным data.frame. replyr предоставляет такие возможности:

  • Обобщение данных: replyr_summary().
  • Объединение таблиц: replyr_union_all().
  • Связывание таблиц по строкам: replyr_bind_rows().
  • Использование функций разделения, объединения, комбинирования (dplyr::do()): replyr_split(), replyr::gapply().
  • Аггрегирование/распределение: replyr_moveValuesToRows() / replyr_moveValuesToColumns().
  • Отслеживание промежуточных результатов.
  • Контроллер объединений.

Скорее всего, вы всё это делаете с данными локально, поэтому такие возможности сделают работу со Spark и sparklyr гораздо легче.

replyr — продукт коллективного опыта использования R в прикладных решениях для многих клиентов, сбора обратной связи и исправления недостатков.

Примеры ниже.
Читать дальше →

[Из песочницы] Анализ взаимосвязи навыков с помощью графов в R

Интересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.

Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов, сотрудников и многое другое. Данное исследование помогает с помощью методов анализа данных ответить на вопрос как взаимосвязаны навыки, какие есть специализации, какие навыки более популярны, а какие навыки следует изучить следующим.

Читать дальше →