データベースの保守で、「ETL」というツールが役立つ場合があります。
ETLとは 【 Extract/Transform/Load 】 【 ELT 】 - IT用語辞典
企業の基幹系システムなどに蓄積されたデータを抽出(extract)し、データウェアハウスなどで利用しやすい形に加工(transform)し、対象となるデータベースに書き出す(load)こと。また、これら一連の処理を支援するソフトウェア。
データウェアハウスを構築し、分析を行うためには、業務システムで発生したデータをデータベースに収納する必要がある。従来、この作業は専用のプログラムを開発しなければならず、ETL作業が全体の工数の半分以上を占めると言われていた。
最近では、ETLツールの登場により、短期間に容易にETLシステムを構築できるようになった。ETLツールには、GUIを使ってデータの流れをビジュアルに構築するツールや、データ形式の変換機能、不正なデータを排除したり一定の形式にデータを修正するデータクレンジング機能などが搭載されている。
データクレンジングとは 〔 データクリーニング 〕 〔 クレンジング 〕 - IT用語辞典
データベースに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行い、データの品質を高めること。
具体的な手法はデータの種類により千差万別だが、一般的な例としては、全角文字と半角文字の違いや、空白文字や区切り記号の有無、人名の異体字の誤りや姓名の分割・併合、法人名の表記(株式会社と(株)の違いなど)、住所や電話番号の表記法などが対象となり、それぞれについて表記ルールを決めて修正・削除などを行なっていく。
National Clinical Database の医療ビッグデータ - 浜村拓夫の世界
●プログラマーの貢献
NCDのデータを基にして、エキスパートシステムを構築すべきでしょう。
=医師が適切な治療法を採用することを支援するサービス。
その前段階として、ETLツール等で迅速にデータマイニングできるサービスを作れば良いでしょう。
ある程度簡単なデータの保守作業であれば、簡易なETLツールを自作して、データの掃除を行えばOK
商用ETLツールの機能や特徴について、学んでみたいと思います。
![]() | 達人に学ぶDB設計 徹底指南書 初級者で終わりたくないあなたへ ミック 翔泳社 2012-03-16 ¥ 2,808 |
- 関連記事
-
- 変更不可なAppend-onlyデータベース「Datomic」
- 外部キーのデメリットとIDリクワイアド
- RDBの交差エンティティ
- イミュータブル(不変)なDB設計
- MySQLのカバードインデックス
- T字形ER手法 (TM、T-formed ERD method) でプログラム設計
- RDFクエリ言語「SPARQL」(スパークル)
- ETLツールでデータクレンジング
- phpMyAdminの代わりに「adminer」を使ってみた
- 「id」以外で、主キーのカラム名は何がいいだろ?
- ブリュワーのCAP定理~データストレージの選定基準
- MySQLで「都道府県コード」を作成するSQL
- Facebookの分散SQLエンジン「Presto」
- 衝突しにくいハッシュ値をMySQLの代理キーにする方法
- MySQLでTEXT型にUNIQUEなインデックスを張る方法