↑ Click!
개요
•
데잇걸즈 4기 프로그램의 파이널 프로젝트입니다
•
한국정보화진흥원장상을 수상하였습니다
•
주제 : OTA 내 호텔 리뷰 중 고객의 입장에서 실질적으로 도움이 되는 리뷰를 분석, 새로운 소팅 모델을 제작
•
데이터 출처 : 웹 크롤러를 제작하여 야놀자, 아고다에서 서울 시내 3-5성급 호텔 리뷰 데이터 2,500건 수집
•
기여 내용 : 주제 도출, 스토리텔링, 데이터 분석, 발표 장표 및 모바일 UI 디자인
프로젝트 내용
문제 인식
•
코로나 19 이후 침체된 관광 및 호텔 업계의 활성화를 위해 정부 차원에서 '대한민국 숙박대전' 이벤트를 운영하고, 네이버 검색량 추이에서도 전년 동기간 대비 '호캉스'와 '서울 호텔' 키워드 검색량이 상승하는 등 여행에 대한 니즈가 호텔 숙박으로 이동되는 트렌드 발견
•
그러나 대부분의 호텔 예약 사이트에서는 내가 원하는 키워드를 담고 있는 리뷰를 따로 볼 수 없고 별점순, 최신순 등으로만 소팅이 되어 상위에 호텔 예약 의사 결정에 도움이 되지 않는 리뷰가 많이 노출된다는 pain point를 확인
데이터 수집 및 분석
•
설문조사로 데이터를 수집할 타겟을 선정한 후, 크롤러를 제작하여 호텔 텍스트 리뷰 데이터 2,500건 수집
•
분석에 용이하도록 개행 문자, 의미없는 자모음, 특수문자, 이모티콘 제거 및 맞춤법 교정 전처리
•
국내 호텔 이용 경험자 140인의 설문조사 및 TF-IDF 가중치 적용에 기반하여 라벨링 기준을 설정, Raw data 라벨링
•
MeCab를 이용해 텍스트를 일정 기본 단위로 자르는 토큰화 작업 진행, 불필요한 불용어 제거
•
통계 분석을 위해 비정형 데이터인 텍스트 데이터를 정형 데이터인 숫자로 변환하는 Term Document Matrix 변환 작업
•
자주 등장하는 단어의 빈도수를 세는 TF 방식 : 모델링과 EDA에 적용
•
여러 번 언급된 단어의 가중치를 낮추는 TF-IDF 방식 : EDA에 적용
EDA
데이터 모델링
•
정밀도를 높이면서 정확도는 유지할 수 있는 Scikit Learn - Logistic Regression 방식을 채택하여 정확도 85% 달성
솔루션 제시
•
새로운 소팅 모델을 '야놀자'의 '노보텔 앰배서더 서울 용산' 호텔 리뷰에 적용한 결과, 상위 50개 리뷰 중 도움되는 리뷰의 비율이 32%에서 96%로 증가
•
주요 키워드 별 긍정, 부정 비율 및 각 키워드를 포함하고 있는 리뷰를 소팅하여 상단에 노출시키는 새로운 서비스 제작 예정