2013년 3, 4월 업데이트 내역
추운 겨울이 지나 어느덧 완연한 봄이 되었네요. 지금 팀포퐁은 일산의 어느 동산에 올라 돗자리를 깔고 치맥을 즐기며 지난 두 달을 회상하고 있습니다. 그 동안 저희는 다음과 같은 일들을 했네요 :)
인명사전
-
레이아웃 리뉴얼 (2-column에서 3-column으로): 새로운 레이아웃을 시도해 봤는데 오히려 이전 UI가 더 자연스러워서 다시 2-column으로 회귀할 생각입니다. ㅎㅎ
- typeahead.js를 이용해 검색창에 자동완성 기능 추가
- 관심있는 의원을 담아둘 수 있는 ‘카트’ 기능 추가
- 지역구, 직업, 최종학력, 경력, 주소 등 신상정보를 추가 공개하고, 타임라인과 트렌드를 별도의 탭으로 분리 (모아보기 탭 추가 예정)
- 검색 속도 개선 실험
- 가설: SQL
like "%keyword%"
문을 sequential search하는 대신 PostgreSQL의 GIN(Generalized Inverted Index) index + trigram module을 이용하면 더 빠르겠지? - 결론: dataset이 워낙 작아서 seq search가 더 빠르다. (현재 포퐁에 등록된 정치인의 수는 약 24,000여 명)
- 가설: SQL
- ‘정당으로 검색’ 추가 (정당은 대수-인물 수 순으로 정렬)
- Unidecode를 이용해 한-영 변환(transliteration) 기능 개선
데이터
- Alembic을 이용해 DB history/migration 관리
- 의원의 주소지 및 출마지 structurization
- ex:
경기 부천시원미구을
->경기도<시도> 부천시<시군구> 원미구<시군구> 을
- ex:
- 18대 회의록 및 의안 크롤링 완료 (두구두구)
기타
- popong.com
- 내부 git 저장소들을 GitHub으로 이전: 점진적으로 팀포퐁 프로젝트 오픈소스화
- Websites: popong.com, blog.popong.com, popong.com/iamseoulmayor, labs.popong.com/codenamu
- Data: 대한민국 지도, 대한민국 인구
- Codes: Crawlers, NLP
- OKFN Korea에서 주최한 오픈 데이터 데이 참가: 좋은 일을 하는 멋진 분들과 19대 국회 재산 내역 데이터 정리 및 공개
다음달에는 지속적으로 의원 데이터를 정리하고, 드디어! 의안 및 회의록에서 텍스트를 추출해서 분석을 시작할 예정입니다. 건의, 질문, 또는 요청할 사항이 있으면 편하게 댓글 달아주시면 감사하겠습니다 :)