Pyspark dataframe column opertions: filter, select, withColumn.
Xử lý dữ liệu thô để sử dụng trong data processing pipeline, nếu dữ liệu không được làm sạch, thì sẽ gây ra những vấn đề sau đó liên quan tới hiệu năng và tổ chức luồng dữ liệu.
- Định dạng kiểu dữ liệu, thay thế văn bản
- Các chuyển đổi tính toán
- Loại bỏ dữ liệu "rác" và dữ liệu chưa hoàn thiện.
Khi nhập file dữ liệu sử dụng pyspark thì có thêm một đối biến schema, spark schema là gì?
spark schema là cấu trúc của DataFrame hoặc bộ dữ liệu, chúng ta định nghĩa cấu trúc này bằng cách sử dụng class StructTtype - là tổng hợp các StructField định nghĩa tên cột, kiểu dữ liệu của cột, cột nullable, và MetaData.
Ví dụ dưới đây:
import pyspark.sql.types
yourSchema = StructType([
StructField('ten', StringType(), True),
StructField('tuoi', IntegerType(), True),
StructField('thanh pho', StringType(), True)
])
Giờ tiến nhành đọc file sử dụng schema như trên:
dan_cu = spark.read.format('csv').load(name='du_lieu_dan_cu.csv', schema=yourSchema)
No comments:
Post a Comment
Bạn cần thêm thông tin hay có câu hỏi vui lòng comment