Thursday, November 24, 2022

Cleaning Data with PySpark

Pyspark dataframe column opertions: filter, select, withColumn.

Xử lý dữ liệu thô để sử dụng trong data processing pipeline, nếu dữ liệu không được làm sạch, thì sẽ gây ra những vấn đề sau đó liên quan tới hiệu năng và tổ chức luồng dữ liệu.

  • Định dạng kiểu dữ liệu, thay thế văn bản
  • Các chuyển đổi tính toán 
  • Loại bỏ dữ liệu "rác" và dữ liệu chưa hoàn thiện. 
Spark có những ưu điểm - đó là nâng cấp mở rộng được nguồn dữ liệu (scalable) và có bộ khung sườn  xử lý hiệu quả dữ liệu. 

Khi nhập file dữ liệu sử dụng pyspark thì có thêm một đối biến schema, spark schema là gì? 

spark schema là cấu trúc của DataFrame hoặc bộ dữ liệu, chúng ta định nghĩa cấu trúc này bằng cách sử dụng class StructTtype - là tổng hợp các StructField định nghĩa tên cột, kiểu dữ liệu của cột, cột nullable, và MetaData. 

Ví dụ dưới đây:

import pyspark.sql.types

yourSchema = StructType([

  StructField('ten', StringType(), True), 

  StructField('tuoi', IntegerType(), True),

  StructField('thanh pho', StringType(), True)

])

Giờ tiến nhành đọc file sử dụng schema như trên:

dan_cu = spark.read.format('csv').load(name='du_lieu_dan_cu.csv', schema=yourSchema)

No comments:

Post a Comment

Bạn cần thêm thông tin hay có câu hỏi vui lòng comment