問題用紙を撮影して AI から解答を教えてもらうアプリ
問題用紙を撮影して AI から解答を教えてもらうアプリ、「StadySnap」を開発した。
StadySnap
https://www.ikachi.org/ai_ocr/
画像を OCR で文字抽出し、それを OpenAI API に渡す。
OCR は、Google Vision API を使った。
Claude Code にソースコードを書かせたのだが、当初、Google Vision API がうまく動作しなかったため、勝手に Open AI の OCR に切り替えます、などとメッセージが出てきたため、慌てて中断した。
Claude Code の、こういった勝手な行動は、非常に困る。
相変わらず、Open AI API のモデルを
OpenAI API にも OCR があるという情報の真偽は確かめていないが、Claude Code にどっちが高いかを聞くと、「Google Vision API の方がはるかに安い」という返答だったため、「では勝手に仕様を変えるな」と指示を出した。
アプリの方の説明としては、
1) 問題用紙の画像を指定
2) 問題用紙から文字を抽出し、いったん確認させる
3) その内容で OpenAI API を呼び出し、レスポンスを表示
の 3 段階となっている。
StadySnap
https://www.ikachi.org/ai_ocr/
画像を OCR で文字抽出し、それを OpenAI API に渡す。
OCR は、Google Vision API を使った。
Claude Code にソースコードを書かせたのだが、当初、Google Vision API がうまく動作しなかったため、勝手に Open AI の OCR に切り替えます、などとメッセージが出てきたため、慌てて中断した。
Claude Code の、こういった勝手な行動は、非常に困る。
相変わらず、Open AI API のモデルを
gpt-4.1-nano と指定しているにもかかわらず、gpt-4.0-mini だったり、gpt-3.5-turbo に書き換えたがるようだ。OpenAI API にも OCR があるという情報の真偽は確かめていないが、Claude Code にどっちが高いかを聞くと、「Google Vision API の方がはるかに安い」という返答だったため、「では勝手に仕様を変えるな」と指示を出した。
アプリの方の説明としては、
1) 問題用紙の画像を指定
2) 問題用紙から文字を抽出し、いったん確認させる
3) その内容で OpenAI API を呼び出し、レスポンスを表示
の 3 段階となっている。