slab

今すぐやること

修論関係 (whodav0.4)
- プログラミング
  - whoda-v0.4 (マルチプル ver.) の動作チェック
  - whoda-v0.4 用の入力フォーマットを作成する
  - whoda-v0.4 用のデータ変換プログラムを作成する
- 入力データの収集
  - myco-mtc-mbo-mle (test data)
  - myco 5 種
  - fungi sce-ago
  - 線虫 cel-cbr
  - rodent hsaX-mmuX
  - rodnet hsaX-ptrX-mmuX
  - rodent hsaX-mmuX-ratX
- 評価
  - rodnet hsaX-mmuX で，Ensembl の結果と見比べる
  - 他の評価方法でも評価を行わないと，科学的な研究と言いずらくなる
- 拡張
  - chaining algorithm に，satoken さんのアドバイスを取り入れてみる

生命情報実験レポート採点
- 採点基準の決定
- 採点

諸雑務
- DDBJing 講習会に必要な教科書を注文する

主活動

研究

高速アライメントアルゴリズムについてサーベイ

オーソログ遺伝子発見問題についてサーベイ

サーベイ方法

PubMed? に以下のキーワードで検索を行った．
- Genome Research[Journal] AND ortholog[Title/Abstract] (27 件)
- Genome Research[Journal] AND orthologue[Title/Abstract] (0 件)
- Genome Research[Journal] AND orthologous[Title/Abstract] (106 件)
- Bioinformatics[Journal] AND ortholog[Title/Abstract] (12 件)
- Bioinformatics[Journal] AND orthologue[Title/Abstract] (2 件)
- Bioinformatics[Journal] AND orthologous[Title/Abstract] (60 件)
- reciprocal AND BLAST (63 件)

ヒットした論文のうち，オーソログ発見問題に関わる論文をピックアップ．結果，以下の 9 本の論文がピックアップされた．
- Automated ortholog inference from phylogenetic trees anc calculation of orthology reliability, Storm-BI01-orthology-reliability.pdf
- Cross-Referencing Eukaryotic Genomes: TIGR Orthologous Gene Alignments (TOGA), Lee-GR02-TOGA.pdf
- GFScan: A Gene Family Search Tool at Genomic DNA Level, Xuan-GR02-GFScan.pdf
- OrthoMCL: Identification of Ortholog Groups for Eukaryotic Genomes, Christian-GR03-OrthoMCL.pdf
- The COG database: an updated version includes eukaryotes, Tatusov03-COG-update.pdf
- Using shared genomic synteny and shared protein functions to enhance the identification of orthologous gene pairs, Zheng-BI04-synteny-function-ortholog.pdf
- OrthologID: automation of genome-scale ortholog identification within a parsimony framework
- Detecting putative orthologs

また，以下のような興味深い論文も発見された．
- NemaFootPrinter?: a web based software for the identification of conserved non-coding genome sequence regions between C. elegans and C. briggsae, Rambaldi-BI05-NFP.pdf
- Comprehensive Analysis of Orthologous Protein Domains Using the HOPS Database, Storm-GR03-Orthogous-Protein-Domains.pdf
- LAGAN and Multi-LAGAN: Efficient Tools for Large-Scale Multiple Alignment of Genomic DNA, Brudno-GR03-LAGAN.pdf
- Whole-genome Trees Based on the Occurrence of Folds and Orthologs: Implications for Comparing Genomes on Different Levels, Lin-GR00-Whole-Genome-Tree.pdf
- Essential Genes Are More Evolutionarily Conserved Than Are Nonessential Genes in Bacteria, &ref(Jordan-GR02-Essential-Conserved.pdf)
- Differential Divergence of Three Human Pseudoautosomal Genes and Their Mouse Homologs: Implications for Sex Chromosome Evolution, Gianfrancesco-GR01-Sex-Chromosome-Evolution.pdf

PickOrtho? の開発と公開

開発
- コードをキレイに書き直す ⇒ さとけんさんに見てもらう
公開
- web application として公開する

Whoda 開発プロジェクト

評価法
- オーソログカバー率
  - (ブロック内オーソログの数) / (オーソログの数)
  - 複数のブロック内に同一のオーソログが含まれていても、ダブルカウントはしない
  - ゲノムのどの程度の領域をカバーしているかを表わす指標
  - 網羅的！
- ゲノムカバー率
  - (ブロック領域長) / (ゲノムの長さ)
  - ブロックがオーバーラップしていたとしても、オーバーラップしている領域はダブルカウントしない
  - ゲノムのどの程度の領域をカバーしているかを表わす指標
- ブロックのオーバーラップ率
  - (ブロック領域のうちオーバーラップしている領域長) / (ブロック領域長)
  - ブロックがどの程度オーバーラップしているかを表わす指標
- オーソログ正解率
  - (対応付けの正しいブロック内オーソログの数) / (ブロック内オーソログの数)
  - 求められたブロックの信頼度の指標
  - 信頼できる！
- ブロック正解率
  - (オーソログの対応付けを正しく行えているブロックの数) / (ブロックの数)
  - オーソログ正解率という指標がどの程度信頼できるかを表わす指標
アルゴリズム
- first-chaining
- second-chaining
  - アンカーのアライメントスコアを求める
  - gumbel 極値分布を仮定し、危険率 p となるアライメントスコアを求める
  - 危険率 p 以下のアライメントスコアを有するアンカーを残し、その他のアンカーを削除する (アンカーのフィルタリング)
  - 残ったアンカーにおいて、colinear かつ sub-neighbor (二つのアンカー間に colinear なアンカーを含まない) なアンカー間に gray edge を引く
  - 各々の gray edge について chaining 判定 (ローカルアライメントスコアの有意性判定) を行い、陽性 (ローカルアライメントスコアが有意に高い) な場合には、新たなアンカーを生成し、チェイニング (black edge に変換) する。また、新たな gray edge を二本追加する。chaining 判定が陰性の場合は、gray edge は white edge へ変換される
  - 全ての gray edge が white edge または black edge に変換されたら、chining 終了である。
- first-clustering
  - 染色体長の長さの a % 以下の距離にある sub-neighbor anchor をクラスタリングする．
- first-filtering
  - 染色体長の長さの b % 以上の長さを持つクラスターを syteny　と見なす．
- second-clustering
  - ギャップサイズ G より近距離にあるアンカーをクラスタリングして、クラスターを作る
- filtering
  - クラスタサイズ C よりも小さなクラスターを削除し、残ったクラスターをシンテニーとする
Whoda とは？
- 仕様
  - 進化の過程でゲノム再編成の影響を受けてこなかった領域 (シンテニー領域?) を同定するツールである。
  - 入力は、複数種のゲノム配列。
  - 出力は、各ゲノム上でのシンテニー領域の場所。
- 方法

アンカーを高速に計算する。PatternHunter? を参考にする。
アンカーをクラスタリングすることで、シンテニー領域を同定する。アンカーのクラスタリングの条件は、以下の通りである。
1. 全ての種のゲノムで、colinearity を満たす。
2. 少なくとも一つの種のゲノムで、continuousity を満たす。
3. アンカー間がアライメント可能である。(この条件により、シンテニー領域に進化的な意味合いが加えられる。なお、「アライメント可能」の定義をより具体化する必要がある。)
求められたシンテニー領域にフィルタリングする。(擬陽性の削除。)
1. 偶然の一致により同定されたシンテニー領域の削除。
2. パラロガスなシンテニー領域の削除。
シンテニー領域内の弱相同性領域を検出する。
1. HMM を用いた転写因子結合部位の検出。
2. PHMTS を用いた non-coding RNA 領域の検出。
3. GHMM を用いた未知の弱相同性領域の検出。
- 利点
  - 結果的に一致しているアンカーや遺伝子の並びを検出するのではなく、進化的にゲノム再編成が起こっていない領域を同定する。
  - より高精度な領域の対応付けが可能(になる予定)。
- 欠点
  - アンカーのクラスタリングの条件にアライメント可能という条件を用いているため、近隣種間でしか用いることができない。

実装
- Paralogous anchor の削除について
  - ある anchor のスコアを、各ゲノム上での anchor の長さの和としてしまっている。これを、ペアワイズの配列の相同性スコアの和と改良する必要がある。
  - 以上の項目を達成するためには、クリスにアンカーの位置情報だけでなく、そのスコアの和も出力してもらうように変更の連絡をする必要がある。
- PatternHunter? について
  - 全く同一のゲノム配列が重複している場合、-phmaski や -phmaskj といったオプションを使ってしまうと、二回目の配列が排除されてしまう。かといってそれらのオプションを使わないと、余りに多数の anchor が検出されてしまう。そこで、相同性スコアの閾値をより厳しくし、重複をも扱えるようにリファインする必要がある。
- anchor 間の配列の相同性を高速にチェックするアルゴリズムについて
  - 現在のプログラムは、anchor 間の配列の相同性をチェックする際に、anchor の向きを考慮していない。また、相補鎖の配列を考慮に入れていない。以上の二点を改良する必要がある。
  - anchor 間の配列の長さに応じてタプル長を定義し、その長さのタプルを含んでいれば、その anchor を結合する。（高速に結果を得たい場合）この場合のタプルの長さについて、もう一度 mauve の論文を読んだほうが良いかもしれない。
    block のクラスタリング : ~~全てのゲノムに overlap しているような二つの block はクラスタリングしてしまう。~~ sign の向きが全てのゲノムにおいて逆で、overlap している block のクラスタリングが行われていないので、そのクラスタリングも行うように改良する。
  - Needlman-Wunsch のグローバルアライメントを行い、そのスコアが有意に高ければ、その anchor を結合する。（近隣種で比較する場合）
  - Smith-Waterman のローカルアライメントを行い、そのスコアが有意に高ければ、その anchor を結合する。（遠く離れた種で比較する場合）
- anchor 間の配列の類似度の有意性を評価する方法について
  - Bioinformatics chapter 4 と、Biological Sequence Analysis chapter 2 から情報収集を行う
- 高速化
  - edge のソートアルゴリズムの変更
- 高機能化
- 微妙な点
  - あまりにも anchor 間の距離が近い場合の対処 (anchor 結合条件に、タプルを用いた場合)
  - seed の長さの計算式 : 最小の配列長のログを取るのではなく、最大の配列長のログを取った方が良いのでは？ (anchor 結合条件に、タプルを用いた場合)
  - 他の anchor と結合しないものの、単体で十分大きい anchor の検出
- 気になること
  - 入力の順番を変えても出力は同じなのだろうか？
- 周辺ツールの作成
考察
- 遺伝子重複にまつわる考察
性能評価
- 比較対象
  - MultiPipMaker?
    Blastz を Mycobacterium に適用できず。なぜか、相補鎖上の pip が検出されない。とりあえず fungi strain のオーソログ・パラログ関係のリサーチを行った後の fungi strain を用いた性能評価の段階でも同様の問題が浮上したならば、再び検討する必要がある。
  - GRIMM-Synteny
  - Mauve
- 評価すべき性能
  - Mycobacterium におけるオーソログ対応関係の検出精度の測定
  - fungi strain におけるオーソログ・パラログ対応関係の検出精度の測定。~~COG に豊富なデータがあるので、評価にはそれを利用。まずは、COG のデータを活用するためのプログラム群を作成する必要がある~~
  - シミュレーションデータによる week homology の検出精度の測定
  - 実行時間計測

研究を支える４つの柱

イメージ作り

進化論の学派と、今までされてきた議論
ゲノムのイメージ作り
- mouse genome がシーケシングされた 2002 年の nature article "Initial sequencing and comparative analysis of the mouse genome" を読破し、まとめる。その邦訳が載っている『ヒトゲノムの未来』の他の部分も読み、まとめる。これは、中間発表が終わったら取りかかりたいと思う。
ゲノム構造のイメージ作り
- 医学出版バイオインフォマティクス・シリーズ『ゲノム情報科学解析入門』第５章　ゲノム構造と進化
- 直系遺伝子の位置関係に基づいた微生物ゲノムの構造解析：渡邉日出海，伊藤剛1，森浩禎1，五條堀孝（1奈良先端科学技術大学院大学）"International Symposium on Network and Evolution of Molecular Information，Cold Springer Harbor Meeting on Molecular Genetics of Bacteria & Phages，Journal of Molecular Evolution, in press "
- 放線菌のゲノム構造
  Kinashi-housenkin.pdf
バイオインフォマティクスの役割

基礎理論の勉強

[高度なデータ構造] : 『アルゴリズムイントロダクション』 chap 19 - chap 22
[グラフアルゴリズム] : 『アルゴリズムイントロダクション』 chap 23 - chap 27
[グラフアルゴリズム] : 『グラフ・ネットワーク・組合わせ論』
[グラフアルゴリズム] : 『組合わせ最適化』
[文字列アルゴリズム] : ？

プログラミングの勉強

C++
- [入門] : ~~『プログラミング言語 C++ Edit3』~~ ← 使いにくいため、あきらめる。
- [入門] : 『独習 C++ 第三版』
Perl・CGI・Bioinformatics
- [入門] : 『バイオインフォマティクスのための Perl 入門』
- [入門] : 『独習 Perl 第二版』
- [入門] : 『CGI プログラミング』
- [底力] : 『Perl クックブック』
- [応用] : 『Mastering Perl for Bioinformatics』
- [応用] : 『オブジェクト指向 Perl マスターコース』
UNIX
- [入門] : 『独習 UNIX』
R
- [入門] : ？

論文の読み漁り

論文のキーワード
- Genome Rearrangement
- Synteny
- Functional Mogule
- GPHMM
- Genome Research
論文を読む習慣付け
- High-throughput and Conprehensive Paper Reading Project (2007 年度春学期) の立ち上げ
  - 企画書

非主活動

TA

生命情報実験（３年生）
- テキスト通読
- テキスト演習
- 補足資料作成

テキスト補正メモ: テキスト補助プリントを作成するためのメモです。
03-system?: テキスト 3 章、システム生物学をサポートするための wiki ページを作成します。

最新の20件

今すぐやること

主活動

研究

高速アライメントアルゴリズムについてサーベイ

オーソログ遺伝子発見問題についてサーベイ

PickOrtho? の開発と公開

Whoda 開発プロジェクト

研究を支える４つの柱

イメージ作り

基礎理論の勉強

プログラミングの勉強

論文の読み漁り

非主活動

TA

授業

雑務

最新の20件