R을 사랑한 느림보 데이터 분석가

직장 일기 #2. 계획하는 것을 좋아하지만 무용지물이 된다. 본문

커리어 일기

직장 일기 #2. 계획하는 것을 좋아하지만 무용지물이 된다.

알럽뷰 2023. 9. 4. 17:50

23년 8월 28일 월요일

 

새로운 사람이 또 들어왔다. 이미지 데이터를 해본 경험이 있다고 하여 관련 프로젝트 인력으로 투입됐다. 먼가 멋져 보이고 부럽다.

내가 들어오기 2주 전에도 새로운 분이 오셨다. 새로운 일을 많이 받긴 했나 보다 싶다.

여기는 회사 내에서 어떠한 프로젝트를 진행하고 있는지 공유되지 않아서 서로 뭐하는지 일부러 물어보러 다니지 않으면 잘 모를 것 같다.

 

난 지난주부터 질질 끌려온 정체 모를 아웃풋을 내기 위해 논문을 간단하게 요약 정리했다.

앞으로 프로젝트를 같이 진행할 책임님이 그건 언제 끝나는 건지 물어봤다.

나도 모르겠다...

그래서 내 선에서 끝내야겠단 생각에 논문을 정리한 자료를 메일로 공유해 버렸다.

난 손 털었다.

 

그리고 미뤄뒀던 진짜 내 업무를 위해 '재현 데이터' 스터디에 몰입하기 시작했다.

 

23년 8월 29일 화요일

 

SDV라는 파이썬 라이브러리가 재현 데이터를 생성하는 아이라고 한다.

그래서 도큐먼트를 하나하나씩 파헤치기로 했다.

한글로 된 자료가 없어서 내가 블로그에 글 써봐도 되겠단 생각을 했다.

'A부터 Z까지 다 익혀보겠노라' 다짐하며 코드도 직접 타이핑하면서 따라 하면서 이해하기로 했다.

 

파견 나갈 사무실이 계약되었단 소식을 들었다.

갑자기 금요일부터 그쪽으로 출근하라고 하길래 맘이 급해졌다.

 

난 이제 막 스터디를 시작했는데!!!

부지런히 예제 코드를 돌려보다 보니 도큐먼트를 뽀개는 게 아니라 내 머리를 뽀갠듯하다.

집 가서 실신했다.

 

23년 8월 30일 수요일

 

아침부터 유데미 강의 8개를 질렀다. 앞으로 내가 해야 할 공부는 쌓여있다.

 

내가 갖고 있는 나의 가계부 데이터를 이용해서 재현 데이터를 생성하고, 그 재현 데이터를 상품화하면 금융 쪽에서 살 수도 있고, 교육을 하고 받는 주체에서도 사주지 않을까? 개인과 개인 거래 시 중간 마진을 받고 재현 데이터를 생성-유통해 주는 것을 상품화하는 앱을 개발하면 어떨까? 이런 게 마이데이터에서 배당을 받는 일인 건가? 혼자 구상도 잠시 해본다.

 

오후 3시에 모여서 지금까지 진행한 것을 공유하자고 했다.

라이브러리를 찾아낸 것에 대해 신이 나고 코드를 돌려본 것에 대해 신이 나서 막 급하게 말하다 보니 말이 꼬이고 진행이 꼬였다.

그래서 내가 하고 싶었던 말이 10개라면 그중에 3개밖에 못했다.

 

다음 미션을 받기도 했다.

 

마지막으로 그런 얘길 했다.

"학원교육이든 길게 정규교육으로 받으신 건 없으시죠?"

예전 학원에선 기술적인 것만 가르쳤는데, 요즘은 상향평준화된 수준으로 왜 그 기술을 쓰는 것인지까지 자세히 알려준다는 것이다.

 

정규교육 같은 거 받은 적 없고 필요에 따라 독학하고 강의 찾아본 게 다 인걸

근데 그게 티가 나는 포인트가 뭘까? 궁금하다...

나중에 물어봐야지.

 

23년 8월 31일 목요일

 

정규교육 못 받은 티가 나는 그 포인트가 무엇인지 물어보려고 했다가 말았다.

그래 공부 열심히 하란 소리니까 앞으로 잘하면 되지 싶었다.

 

그리고 미션을 하나씩 해결해 나가기로 했다.

 

SDV에서 재현데이터를 생성하기 위해선 실제 데이터와 메타 데이터를 넣고, 거기서 재현 데이터를 만들어 내는 것이다.

실제 데이터는 임의로 엑셀에서 정규분포와 유니폼분포로 난수생성해서 만들었고, 문제는 메타 데이터이다.

 

여기에서 가장 많은 시행착오를 겪었다.

 

메타 데이터는 JSON 형식으로 쓰여있고, 메타 데이터 생성하는 예제 코드는 한정적이었다.

직접 JSON을 작성해보기도 하고 임의 데이터 타입 형식을 int에서 num 또는 int에서 bool로도 바꿔서 시도해 봐도 계속 오류가 발생했다.

캐글에서 코드를 따오려고 검색해도 그것조차 잘 안 나온다.

 

결국 개발에 '개'도 모르는데 SDV의 깃허브에 들어가서 여기저기 휘적휘적 다녔다.

그러다가 SDV 공식 슬랙이 있고, 그 안에 많은 사람들이 참여해 있는 것을 보고 당장 나도 참여해 봤다.

 

메타데이터를 검색해 봤더니, 다른 이들의 내용을 확인해 볼 수 있었는데 멀티가 아닌 싱글로 작업을 했어야 했다.

 

# 다중 테이블 적용 예시
from sdv.metadata import MultiTableMetadata

metadata = MultiTableMetadata()

metadata.detect_from_dataframes(
    data=datasets
)

여기서부터 오류가 발생해서 메터 데이터를 수차례 생성하고 고치곤 했다.

dataframe's'에서 눈치챘어야 했다.

급하게 코드 따라 하면서 복붙 하면 이런 불상사가 생긴다.

영어와 친해져야 하는 이유...😂

 

# 단일테이블 참고 코드

from sdv.metadata import SingleTableMetadata
metadata = SingleTableMetadata()
metadata.detect_from_dataframe(data=data)
metadata.validate()

# 가우시안 적용

from sdv.single_table import GaussianCopulaSynthesizer
synthesizer = GaussianCopulaSynthesizer(metadata)
synthesizer.fit(creditcard)
synthetic_data = synthesizer.sample(num_rows=100)

 

잠깐 회의를 했고, 결국 파견 나갈 사무실은 다음 주 월요일부터 가기로 했다.

 

아, 맞다 그리고 말일은 월급날~

 

23년 9월 1일 금요일

 

8시 30분 전에 출근완료.

그전에는 8시 30분에서 9시 사이로 출근했었는데, 8시 반에 오면 5시 반에 퇴근이 가능하다고 해서 도전해 보려고 부지런히 회사에 출근했다. 파견을 오래 나가는 일이라서 그런지 출퇴근에 있어서 꽤 자유롭다.

 

아 그리고 약간 칭찬 뉘앙스를 들어버렸다.

당근은 없고 채찍만 챙겨 다니시는 책임님께서 웬일로 내가 한 말에 격하게 공감해 주면서 칭찬비스무리한 말을 해서 몹시 놀라고 어리둥절했지만 바로 좋아라 하면 싹 칭찬을 거둬갈까 싶어 무표정으로 무덤덤한 척, 못 들은 척 포커페이스를 유지했다.

속으로는 아싸 뭔가 인정해 준 느낌 좋다!!

 

바로 다음 주부터는 프로젝트하는 사무실로 나가기 때문에 마무리하는 느낌이 강했고 금요일이라 칼퇴를  기다리며 편하게 일했다. 그리고 노트북, 모니터 등 업무용 짐을 싸려는데 갑자기 또 연기되었다.

다음 주 월요일부터 본사 사무실로 정상출근하면 된다고 한다.

내 시간이 갑자기 붕 뜬 느낌. 대략적으로 스케줄에 맞춰 스터디하던 것도 마무리했는데 불확실해진 프로젝트를 스터디해도 되는 것인가 미적지근하다.

나중에 투입된다고 해도 못한 만큼 야근해야 할 수도 있고 명절도 있어서 공수가 들어가지 않은 기간으로 시간만 흐르는 것도 아깝다. 그런 걸로 억울한 일이 생길까 싶고 불안해졌다.

 

그래도 불안한 건 불안한 거고 5시 반에 퇴근해 버렸다.

그리고 5시 반에 퇴근해 보니 퇴근길이 너무 치열해서 그냥 6시 반 넘어서 가고 싶어졌다.

 

둘째 주 주말

 

다음 주에 있을 SQLD 시험공부를 하겠노라 야심 차게 카페 가서 2시간 정도만 하고 집에 와서 놀았다.

그리고 일요일도 역시 놀았다.