'IT 개발 > Spark 관련' 카테고리의 다른 글
WindowSpec을 이용한 누적 합계 (cumSum) (0) | 2021.03.17 |
---|---|
Spark 완벽 가이드 (0) | 2020.11.02 |
빅데이터 분석을 위한 스파트2 프로그래밍 (0) | 2020.11.01 |
WindowSpec을 이용한 누적 합계 (cumSum) (0) | 2021.03.17 |
---|---|
Spark 완벽 가이드 (0) | 2020.11.02 |
빅데이터 분석을 위한 스파트2 프로그래밍 (0) | 2020.11.01 |
> WindowSpec cumSum = Window.partitionBy("srl").rowsBetween(Window.unboundedPreceding(), Window.currentRow());
같은 srl을 기준으로 누적합계를 구해줌
spark window 함수 관련 (0) | 2021.04.05 |
---|---|
Spark 완벽 가이드 (0) | 2020.11.02 |
빅데이터 분석을 위한 스파트2 프로그래밍 (0) | 2020.11.01 |
p.132~153 - DataFrame의 기본 연산
p.168 - trim
p.170 - translate ***
p.173 - 날짜와 타임스탬프 데이터 타입
p.212 - window 함수
p.227 - 조인
spark window 함수 관련 (0) | 2021.04.05 |
---|---|
WindowSpec을 이용한 누적 합계 (cumSum) (0) | 2021.03.17 |
빅데이터 분석을 위한 스파트2 프로그래밍 (0) | 2020.11.01 |
RDD
p.110 - map vs. flatMap vs. mapPartitions
p.121 - groupBy
p.125 - distinct
p.129 - Join
p.139 - repartition
p.144 - filter
p.162 - toDebugString
DataFrame (=DataSet<Row>, SparkSQL 모듈의 핵심 추상화 모델)
p.309 - isin, when
p.313 - count, countDistinct
p.317 - current_date(), unix_timestamp(), to_date()
p.319 - 날짜 연산
p.320 - window() 시간윈도우
p.321 - desc, asc
p.329 - select, filter, where, agg
p.332 - groupby, distinct
p.335 - join
p.343 - withColumn
DataSet
p.356 - df.withColumn("count"), lit("1')).groupBy("word").agg(sum("count"))
p.359 - 객체를 이용한 데이터셋 생성, createDataset (인코더는 최적화된 바이너리를 생성하고 직렬화함)
p.365 - flatMap
p.366 - groupByKey
spark window 함수 관련 (0) | 2021.04.05 |
---|---|
WindowSpec을 이용한 누적 합계 (cumSum) (0) | 2021.03.17 |
Spark 완벽 가이드 (0) | 2020.11.02 |