<aside>
🚀 Information (식물 유전체 연구실 학부 연구생)
-
목적
- 고추 Capsaicin 분류를 위한 머신러닝 모델 연구
- SNP 유전자 변이를 활용한 회귀/분류 모델 제작
-
목차
- 시기
- 진행과정
- 배운 점
- 증빙자료
</aside>
시기
- 학부연구생 근무 기간 (2024.06 ~ 2024.08)
- 2024.06.24 ~ 2024.07.07 : 리눅스 서버 적응 과정
- 2024.07.08 ~ 2024.07.31 : 대용량 데이터 분석 및 가공, 모델링 계획 수립
- 데이터분석을 통한 모델링 계획 수립
- feature 선택, 1차 모델링 진행
- 2024.08.01 ~ 2024.08.31 : 대용량 데이터 활용 회귀/분류 모델 제작
- 1차 모델링 기반 추가 연구 계획 수립
- 성능 향상을 위한 다양한 기법 적용
진행과정
배운 점
- 리눅스 SSH 서버 사용법을 알게 됨
- GPU 서버가 아닌 리눅스 기반의 새로운 환경을 접할 수 있어서 좋았음
- 기존에 머신러닝을 위한 환경이 구축되어 있지 않은 상태에서 나에게 맞는 환경을 직접 구축해 볼 수 있는 기회가 됨
- 대용량 데이터분석 방식에 대한 공부
- 하드웨어적인 서포팅이 부족한 상태에서 분석하는 방식에 대해서 고민하고 공부하는 경험을 함
- 판다스 라이브러리가 3기가만 되어도 생각보다 잘 작동하지 못한다는 사실을 알게 됨
- 특히나 Columns이 많은 상태에서는 더욱 작동이 잘 되지 않음
- 도메인 지식 기반 데이터 가공
- 생물정보학을 기반으로 효과적으로 데이터를 처리하기 위해 노력함
- 도메인 지식이 없는 기술자가 할 수 없는 방식을 사용하기 위해 노력함
증빙자료
