Create SparkSession from builder

Explanation of all PySpark RDD, DataFrame and SQL examples present on this project are available at Apache PySpark Tutorial, All these examples are coded in Python language and tested in our development environment.

SparkSession

SparkSession also includes all the APIs available in different contexts –

SparkContext,
SQLContext,
StreamingContext,
HiveContext.

Docs

Install


JAVA_HOME = C:\Program Files\Java\jdk1.8.0_201
PATH = %PATH%;C:\Program Files\Java\jdk1.8.0_201\bin


SPARK_HOME  = C:\apps\spark-3.0.0-bin-hadoop2.7
HADOOP_HOME = C:\apps\spark-3.0.0-bin-hadoop2.7
PATH=%PATH%;C:\apps\spark-3.0.0-bin-hadoop2.7\bin

** Spark Shell + Web UI
- $SPARK_HOME/sbin/pyspark

Spark-shell also creates a Spark context web UI and by default, it can access from http://localhost:4041.

Spark

scala -version
spark-submit --version
spark-shell --version
spark-sql --version

Jupyter notebook

pip install jupyter
jupyter notebook

The spark-submit

The spark-submit command is a utility to run or submit a Spark or PySpark application program (or job) to the cluster by specifying options and configurations, the application you are submitting can be written in Scala, Java, or Python (PySpark). spark-submit command supports the following.

Submitting Spark application on different cluster managers like Yarn, Kubernetes, Mesos, and Stand-alone.
Submitting Spark application on client or cluster deployment modes.

 spark-3.0.1-bin-hadoop3.2/bin/spark-submit test.py

Create SparkSession from builder

import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[1]") \
                    .appName('SparkByExamples.com') \
                    .getOrCreate()

Name		Name	Last commit message	Last commit date
Latest commit History 70 Commits
.ipynb_checkpoints		.ipynb_checkpoints
__pycache__		__pycache__
joindata		joindata
resources		resources
README.md		README.md
Untitled.ipynb		Untitled.ipynb
convert-column-python-list.py		convert-column-python-list.py
currentdate.py		currentdate.py
data.txt		data.txt
fibo.py		fibo.py
hellospark.py		hellospark.py
pandas-pyspark-dataframe.py		pandas-pyspark-dataframe.py
pyspark-add-month.py		pyspark-add-month.py
pyspark-add-new-column.py		pyspark-add-new-column.py
pyspark-aggregate.py		pyspark-aggregate.py
pyspark-array-string.py		pyspark-array-string.py
pyspark-arraytype.py		pyspark-arraytype.py
pyspark-broadcast-dataframe.py		pyspark-broadcast-dataframe.py
pyspark-cast-column.py		pyspark-cast-column.py
pyspark-change-string-double.py		pyspark-change-string-double.py
pyspark-collect.py		pyspark-collect.py
pyspark-column-functions.py		pyspark-column-functions.py
pyspark-column-operations.py		pyspark-column-operations.py
pyspark-convert-map-to-columns.py		pyspark-convert-map-to-columns.py
pyspark-convert_columns-to-map.py		pyspark-convert_columns-to-map.py
pyspark-count-distinct.py		pyspark-count-distinct.py
pyspark-create-dataframe-dictionary.py		pyspark-create-dataframe-dictionary.py
pyspark-create-dataframe.py		pyspark-create-dataframe.py
pyspark-create-list.py		pyspark-create-list.py
pyspark-current-date-timestamp.py		pyspark-current-date-timestamp.py
pyspark-dataframe-flatMap.py		pyspark-dataframe-flatMap.py
pyspark-dataframe-repartition.py		pyspark-dataframe-repartition.py
pyspark-dataframe.py		pyspark-dataframe.py
pyspark-date-string.py		pyspark-date-string.py
pyspark-date-timestamp-functions.py		pyspark-date-timestamp-functions.py
pyspark-datediff.py		pyspark-datediff.py
pyspark-distinct.py		pyspark-distinct.py
pyspark-drop-column.py		pyspark-drop-column.py
pyspark-drop-null.py		pyspark-drop-null.py
pyspark-empty-data-frame.py		pyspark-empty-data-frame.py
pyspark-explode-array-map.py		pyspark-explode-array-map.py
pyspark-explode-nested-array.py		pyspark-explode-nested-array.py
pyspark-expr.py		pyspark-expr.py
pyspark-filter-null.py		pyspark-filter-null.py
pyspark-filter.py		pyspark-filter.py
pyspark-filter2.py		pyspark-filter2.py
pyspark-fulter-null.py		pyspark-fulter-null.py
pyspark-groupby-sort.py		pyspark-groupby-sort.py
pyspark-groupby.py		pyspark-groupby.py
pyspark-join-two-dataframes.py		pyspark-join-two-dataframes.py
pyspark-join.py		pyspark-join.py
pyspark-left-anti-join.py		pyspark-left-anti-join.py
pyspark-lit.py		pyspark-lit.py
pyspark-loop.py		pyspark-loop.py
pyspark-mappartitions.py		pyspark-mappartitions.py
pyspark-maptype-dataframe-column.py		pyspark-maptype-dataframe-column.py
pyspark-orderby-groupby.py		pyspark-orderby-groupby.py
pyspark-orderby.py		pyspark-orderby.py
pyspark-parallelize.py		pyspark-parallelize.py
pyspark-partitionby.py		pyspark-partitionby.py
pyspark-pivot.py		pyspark-pivot.py
pyspark-print-contents.py		pyspark-print-contents.py
pyspark-python-dataframe.py		pyspark-python-dataframe.py
pyspark-range-partition.py		pyspark-range-partition.py
pyspark-rdd-actions.py		pyspark-rdd-actions.py
pyspark-rdd-broadcast.py		pyspark-rdd-broadcast.py
pyspark-rdd-flatMap.py		pyspark-rdd-flatMap.py
pyspark-rdd-map.py		pyspark-rdd-map.py
pyspark-rdd-reduceByKey.py		pyspark-rdd-reduceByKey.py
pyspark-rdd-to-dataframe.py		pyspark-rdd-to-dataframe.py
pyspark-rdd-wordcount-2.py		pyspark-rdd-wordcount-2.py
pyspark-rdd-wordcount.py		pyspark-rdd-wordcount.py
pyspark-rdd.py		pyspark-rdd.py
pyspark-read-csv.py		pyspark-read-csv.py
pyspark-read-json.py		pyspark-read-json.py
pyspark-rename-column.py		pyspark-rename-column.py
pyspark-repace-null.py		pyspark-repace-null.py
pyspark-repartition-2.py		pyspark-repartition-2.py
pyspark-repartition.py		pyspark-repartition.py
pyspark-row.py		pyspark-row.py
pyspark-sampling.py		pyspark-sampling.py
pyspark-select-columns.py		pyspark-select-columns.py
pyspark-shape-dataframe.py		pyspark-shape-dataframe.py
pyspark-show-top-n-rows.py		pyspark-show-top-n-rows.py
pyspark-sparksession.py		pyspark-sparksession.py
pyspark-split-function.py		pyspark-split-function.py
pyspark-sql-case-when.py		pyspark-sql-case-when.py
pyspark-string-date.py		pyspark-string-date.py
pyspark-string-timestamp.py		pyspark-string-timestamp.py
pyspark-string-to-array.py		pyspark-string-to-array.py
pyspark-struct-to-map.py		pyspark-struct-to-map.py
pyspark-structtype.py		pyspark-structtype.py
pyspark-time-diff.py		pyspark-time-diff.py
pyspark-timestamp-date.py		pyspark-timestamp-date.py
pyspark-types.py		pyspark-types.py
pyspark-udf.py		pyspark-udf.py
pyspark-union.py		pyspark-union.py
pyspark-unix-time.py		pyspark-unix-time.py
pyspark-update-column.py		pyspark-update-column.py
pyspark-when-otherwise.py		pyspark-when-otherwise.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SparkSession

Docs

Install

The spark-submit

Create SparkSession from builder

Table of Contents (Spark Examples in Python)

PySpark Basic Examples

PySpark DataFrame Examples

PySpark SQL Functions

PySpark Datasources

About

Releases

Packages

Languages

sanogotech/pyspark-examples

Folders and files

Latest commit

History

Repository files navigation

SparkSession

Docs

Install

The spark-submit

Create SparkSession from builder

Table of Contents (Spark Examples in Python)

PySpark Basic Examples

PySpark DataFrame Examples

PySpark SQL Functions

PySpark Datasources

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages