spark-examples · MdShahidAfridiP · Feb 21, 2024 · Feb 23, 2024 · Feb 23, 2024
diff --git a/pyspark-add-month.py b/pyspark-add-month.py
@@ -5,9 +5,6 @@
 from pyspark.sql import SparkSession
 spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()
 
-from pyspark.sql.functions import col,expr
+from pyspark.sql.functions import add_months, to_date
 data=[("2019-01-23",1),("2019-06-24",2),("2019-09-20",3)]
-spark.createDataFrame(data).toDF("date","increment") \
-    .select(col("date"),col("increment"), \
-      expr("add_months(to_date(date,'yyyy-MM-dd'),cast(increment as int))").alias("inc_date")) \
-    .show()
+spark.createDataFrame(data,schema=["date","increment"]).select(['date','increment',add_months(to_date('date'),'increment').alias("inc_date")]).show()
diff --git a/pyspark-dataframe-flatMap.py b/pyspark-dataframe-flatMap.py
@@ -4,17 +4,26 @@
 """
 
 
-from pyspark.sql import SparkSession
+from pyspark.sql import SparkSession, Row
 spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()
 
 columns = ["name","languagesAtSchool","currentState"]
 data = [("James,,Smith",["Java","Scala","C++"],"CA"), \
     ("Michael,Rose,",["Spark","Java","C++"],"NJ"), \
     ("Robert,,Williams",["CSharp","VB"],"NV")]
 
-df = spark.createDataFrame(data=data,schema=columns)
-df.printSchema()
-df.show(truncate=False)
+# Convert data to a DataFrame
+rdd = spark.sparkContext.parallelize(data)
+row_rdd = rdd.map(lambda x: Row(name=x[0], languagesAtSchool=x[1], currentState=x[2]))
+df = spark.createDataFrame(row_rdd, columns)
 
-#Flatmap    
+# Apply flatMap transformation
+flat_mapped_df = df.rdd.flatMap(lambda x: [(x["name"], lang, x["currentState"]) for lang in x["languagesAtSchool"]])
+
+# Convert result to DataFrame
+result_columns = ["name", "language", "currentState"]
+result_df = flat_mapped_df.toDF(result_columns)
+
+# Show the result
+result_df.show()