지금 쓰고있는 내용은 [1]에서 발생하는 노트북 문제에 대해서 서술하는 내용이다. 처음 제작할때는 pyspark를 고려하지 않았다.

 

jupyter에서 pyspark를 처음사용할때 그냥 !pip install pyspark만 하면 끝나는줄 알았지만 작동구조상 버전에 맞지않게 설치하게되면 작동이 그림 1 처럼 안된다..(그냥 설치하면 pyspark 3.0.1(최신버전)로 설치됨을 확인했다.)

 

그림 1. jupyter에서는 그냥 pip 로 설치해서 바로 사용이 안된다.

해결방법은 내가 알고있는 선에서는 2가지 있다. 버전을 맞추거나 그래도 안되면 스파크파일 내부에 setup.py가 있는데 이로 설치를 진행하면 된다.

 

1. 버전에 맞게 설치

큰 문제는 버전이 맞지 않기 때문이며 그림 2 처럼 버전을 맞게 설치하면 대부분 해결된다.

그림 2. 버전에 맞게 설치하면 의외로 간단히 해결된다.

2. setup.py로 설치

사실 pip 패키지 배포에 문제가 없는 이상 대부분 잘 작동이 되겠지만 혹시 모르니,, 안되면 spark 바이너리를 다운받으면 내부에 보통 python 디렉토리에 파이썬 설치파일이 들어있다. 이를 이용해서 그림 3 처럼 설치하면 깔끔하게 설치가 가능하다.

그림 3. pyspark 설치를 진행하기전 설치 명령어를 보여준다.
그림 4. !pip 과정 없이 바로 실행이 가능하다.

비교적 간단한 내용이지만 나중에 또 시간 낭비할까봐 메모로 남겨둔다.

 

참고문헌

1. Available online: github.com/titania7777/SparkNotebook 13 Oct 2020.

+ Recent posts