lamanus.kr/80

 

Spark에서 Window 함수의 다양한 이용

스파크(Spark)에서 데이터 프레임을 다루다 보면, 다양한 함수들이 요구됩니다. 기본 함수들은 직관적으로 새로운 값을 생성하는 것에 초점을 맞추고 있습니다. 그런데, 많은 경우에 데이터 비교

lamanus.kr

 

sparkbyexamples.com/spark/spark-sql-window-functions/

> WindowSpec cumSum = Window.partitionBy("srl").rowsBetween(Window.unboundedPreceding(), Window.currentRow());

 

같은 srl을 기준으로 누적합계를 구해줌

'IT 개발 > Spark 관련' 카테고리의 다른 글

spark window 함수 관련  (0) 2021.04.05
Spark 완벽 가이드  (0) 2020.11.02
빅데이터 분석을 위한 스파트2 프로그래밍  (0) 2020.11.01
더보기

p.132~153 - DataFrame의 기본 연산

p.168 - trim

p.170 - translate ***

p.173 - 날짜와 타임스탬프 데이터 타입

p.212 - window 함수

p.227 - 조인

 

더보기

RDD

p.110 - map vs. flatMap vs. mapPartitions

p.121 - groupBy

p.125 - distinct

p.129 - Join

p.139 - repartition

p.144 - filter

p.162 - toDebugString 

 

DataFrame (=DataSet<Row>, SparkSQL 모듈의 핵심 추상화 모델)

p.309 - isin, when

p.313 - count, countDistinct

p.317 - current_date(), unix_timestamp(), to_date()

p.319 - 날짜 연산

p.320 - window() 시간윈도우

p.321 - desc, asc

p.329 - select, filter, where, agg

p.332 - groupby, distinct

p.335 - join

p.343 - withColumn

 

DataSet

p.356 - df.withColumn("count"), lit("1')).groupBy("word").agg(sum("count"))

p.359 - 객체를 이용한 데이터셋 생성, createDataset (인코더는 최적화된 바이너리를 생성하고 직렬화함)

p.365 - flatMap

p.366 - groupByKey

 

'IT 개발 > Spark 관련' 카테고리의 다른 글

spark window 함수 관련  (0) 2021.04.05
WindowSpec을 이용한 누적 합계 (cumSum)  (0) 2021.03.17
Spark 완벽 가이드  (0) 2020.11.02

+ Recent posts