지금 쓰고있는 내용은 [1]에서 발생하는 노트북 문제에 대해서 서술하는 내용이다. 처음 제작할때는 pyspark를 고려하지 않았다.
jupyter에서 pyspark를 처음사용할때 그냥 !pip install pyspark만 하면 끝나는줄 알았지만 작동구조상 버전에 맞지않게 설치하게되면 작동이 그림 1 처럼 안된다..(그냥 설치하면 pyspark 3.0.1(최신버전)로 설치됨을 확인했다.)
해결방법은 내가 알고있는 선에서는 2가지 있다. 버전을 맞추거나 그래도 안되면 스파크파일 내부에 setup.py가 있는데 이로 설치를 진행하면 된다.
1. 버전에 맞게 설치
큰 문제는 버전이 맞지 않기 때문이며 그림 2 처럼 버전을 맞게 설치하면 대부분 해결된다.
2. setup.py로 설치
사실 pip 패키지 배포에 문제가 없는 이상 대부분 잘 작동이 되겠지만 혹시 모르니,, 안되면 spark 바이너리를 다운받으면 내부에 보통 python 디렉토리에 파이썬 설치파일이 들어있다. 이를 이용해서 그림 3 처럼 설치하면 깔끔하게 설치가 가능하다.
비교적 간단한 내용이지만 나중에 또 시간 낭비할까봐 메모로 남겨둔다.
참고문헌
1. Available online: github.com/titania7777/SparkNotebook 13 Oct 2020.
'공부 또는 팁' 카테고리의 다른 글
Ubuntu GUI 켜고 끄기 (0) | 2020.12.23 |
---|---|
Numpy를 이용해 코사인 유사도 계산하기 (0) | 2020.12.04 |
첫 ray 사용자를 위한 팁 (0) | 2020.09.15 |
Powershell vim 설치 및 alias 설정하기 (0) | 2020.09.02 |
아나콘다를 Powershell 에서 활성화 하는 법 (0) | 2020.09.02 |