이제 데이터 셋 자체는 모두 준비했기 때문에 모델 학습을 위한 train, test 셋을 구성해야 한다.
우선 정리하고 넘어가면 산불발생에 대한 데이터를 fire data라고 명칭 하자. fire데이터는 현재 산불 발생 날짜와 위치 그리고 그에 맞는 기상데이터를 붙여놓은 상태이다.
그리고 지형과 인적 데이터의 경우 아직은 강원도 전체에 대한 이미지 파일이다.
이 지형과 인적데이터를 각 날짜, 시간에 맞게 매칭해줘야 한다.
우선 이미지 파일에 대해서 다시 확인하면, 우리가 보기에는 이미지로 되어있지만 이것은 사실 가로 400 세로 278의 격자로 되어있는 데이터이고 각 격자마다 값이 들어있다. -> 이것을 해상도라고 지칭했다 (이것은 보간할 때 더 정밀하게 즉 400*278보다 더 크게 할 수 있었는데 그럼 메모리가 엄청나게 소비되고 각 격자마다 사실 거의 차이가 없어져서 저 정도로 하였다.)
이제 이 격자칸에서 산불이 발생이 발생한 위치의 지형 데이터만을 추출해야 한다. 이 부분도 매우 어려웠다.
gdal에 있는 함수들을 이용해서 전체 지도에서 특정 좌표에 해당하는 부분만 crop 하는 코드를 사용하여 해당지점의 지형데이터들을 크롭 해줬다.
아래와 같이 각 feature별로 crop이 진행된다.
이제 산불발생유무에 해당하는 target = 0과 1이고, 우리는 각 지점의 기상데이터와 지형데이터가 존재한다.
이 feature들을 이용해서 모델을 훈련하고 검증할 것이다.
대략적인 파이프라인은 아래와 같다.
728x90
반응형
'프로젝트 > 산불 발생 예측' 카테고리의 다른 글
산불 발생 확률 예측 - 프로젝트 마무리 (0) | 2023.11.21 |
---|---|
산불 발생 확률 예측 - 모델링 결과 (0) | 2023.11.21 |
산불 발생 확률 예측 - 지형,인적 데이터 수집 (0) | 2023.11.21 |
산불 발생 확률 예측 - 인적 데이터 수집 (0) | 2023.11.20 |
산불 발생 확률 예측 - 프로젝트 시작 (0) | 2023.11.20 |